


NUMERISCHE 
MATHEMATIK 


1. BAND 















. +4, 
,aseene oace erry ome 33: 38 Hass: sects sadecnacsobannbdsts 
aH sisazgenaaitnnccazae $4998 UMNDUMA iacdiagsStSt8e333:2 : s22ecaiaaannase eee as 
ei etesee suave mire. a. eieseteee: =m yt cot HF iis shuns au nin + Weeaiainiatbionnsereces =. 
pessssneeee b+ att essai aan aiTiS Ie sini 





titer CE DRD er pepeeene? 
lé ‘ > Stee 
528)! ebeees- ® 









aloe C6888) 


ee ee acaiaiaianatg 2 











NUMERISCHE MATHEMATIK 


wussstetntnynrnsia 


aa. 

L UNTER MITWIRKUNG VON 

4 F.L. BAUER, MAINZ - L. BIERMANN, MUNCHEN - L. COLLATZ, HAMBURG 
i G. DARMOIS, PARIS - G. E. FORSYTHE, PALO ALTO - A. GHIZZETTI, ROM 
e W. GIVENS, DETROIT - R. INZINGER, WIEN - N. J. LEHMANN, DRESDEN 
E.J. NYSTROM, HELSINKI - H.PILOTY, MUNCHEN - R. D.RICHTMYER, NEW YORK 
a H. RUTISHAUSER, ZURICH - A. VAN WIJNGAARDEN, AMSTERDAM 
et 


J. H. WILKINSON, TEDDINGTON 


HERAUSGEGEBEN VON 


A. HOUSEHOLDER - R. SAUER - E.STIEFEL 
OAK RIDGE MUNCHEN ZURICH 


J.TODD - A.WALTHER 
PASADENA DARMSTADT 


s+: aesegens asece 4 sbssencueeteNenene bisiaiaaaagse® 
HUTTE FES Etertranaenececesere se zeUUtt HbET 


welt 
seeeaeetere 


1.BAND 


Cidiere 


St to octet 
Tt} ’ 4 $5 te 


sesdiseenns 





SPRINGER-VERLAG 
BERLIN-GOTTINGEN -HEIDELBERG 
1959 









Alle Rechte, einschlieBlich das der Ubersetzung in fremde Sprachen und das der foto- 
mechanischen Wiedergabe oder einer sonstigen Vervielfiltigung, vorbehalten. Jedoch 
wird gewerblichen Unternehmen fiir den innerbetrieblichen Gebrauch nach MaBgabe des 
zwischen dem Bérsenverein des Deutschen Buchhandels e. V. und dem Bundesverband 
der Deutschen Industrie abgeschlossenen Rahmenabkommens die Anfertigung einer 
fotomechanischen Vervielfaltigung gestattet. Wenn fiir dicse Zeitschrift kein Pauschal- 
abkommen mit dem Verlag vereinbart worden ist, ist eine Wertmarke im Betrage von 
DM 0.30 pro Seite zu verwenden. Der Verlag laBt diese Betrdge den Autorenverbanden 
suflieBen 


Springer-Verlag OHG / Berlin - Géttingen - Heidelberg 
Printed in Germany 
Druck der Universitatsdruckerei H. Stiirtz AG., Wiirzburg 





Inhalt des 1. Bandes 


Seite 
—BAveEr, F-E.,_-und-H. }- Stettrer, Zur _numerischen Fourier-Transformation—._._208 
Bauer, F. L. siehe HOUSEHOLDER, A. S. 
BERTRAM, G., Verscharfung-einer Fehlerabschatzung zum _ Ritz-Galerkinschen 
Verfahren von Krytorr fiir Randwertaufgaben ........... =. 135 
BERTRAM, G., Eine Fehlerabschatzung fiir gewisse selbstadjungierte, gew6hnliche 
SS ee ee eee ee ee eee eee |. 
CHENEY, E. W., and A. A. GoLpsTtEIn, Newton’s Method for Convex Program- 
ming and Tchebycheff Approximation. ........... 4... +. . 253 
Coun, H., Numerical study of the representation of a totally positive quadratic 
integer as the sum of quadratic integralsquares ............ 121 
Cotvatz, L., und J. ScHRODER, EinschlieBen der Lésungen von Randwertauf- 
UR sae a9 6 TRS RA 6 os > BS FS ow Cee BO 
ComéErt, S., Uber die Anwendung von Binarmodellen in der Theorie der Charak- 
tere der symmetrischen Gruppen .........-2.+++++4+2+-+24- 9 
DijykstrRA, E. W., A Note on Two Problems in Connexion with Graphs... . 269 
Dicx, W., Eine Fehlerabschaétzung zum E/inzelschrittverfahren bei linearen 
[I . 6 «ee ee hh eee ke ee He ee me et oe BY 
GoLpsTEIN, A. A. siehe CHENEY, E. W. 
HousEHOLDER, A. S., and F. L. Baver, On certain methods for expanding 
eee eee eee ee eee eee 
Kreiss, H.-O., Uber die Differenzapproximation hoher Genauigkeit bei Anfangs- 
wertproblemen fiir partielle Differentialgleichungen . . ........ . 186 
Kreyszic, E., and J. Topp, The radius of univalence of the error function. . . 78 
ParTER, S. V., On ‘‘Two-Line”’ Iterative Methods for the Laplace and Bihar- 
SURS COUUNNGS THURS 6k hE KR Oe we wee me ee ss 


Per.is, A. J., and K. SAMELSON, Report on the Algorithmic Language ALGOL 41 
SAMELSON, K. siehe PERLIs, A. J. 

SCHAPPERT, H. siehe WALTHER, A. 

SCHRODER, J. siehe CoLvatTz, L. 

S1kKEMA, P. C., Uber den Grad der Approximation mit Bernstein-Polynomen . 221 


STETTER, H. J. siehe BAvuER, F. L. 





1V Inhaltsverzeichnis 


STIEFEL, E., Uber diskrete und lineare Tchebycheff-Approximationen . 

Topp, J. siehe Kreyszie, E. 

WALTHER, A., und H. SCHAPPERT, Numerische Behandlung des Gelenkvierecks . 
WEISFELD, M., Orthogonal polynomials in several variables 


WiLkInson, J. H., The evaluation of the zeros of ill-conditioned polynomials. 
Part I. 


WILKINSON, J. H., The evaluation of the zeros of ill-conditioned polynomials. 
Part II 


Wynn, P., On the Propagation of Error in Certain Non-linear Algorithms . 
Wynn, P., A Sufficient Condition for the Instability of the g—d Algorithm 


Wynvy, P., Converging Factors for Continued Fractions. Part 1. 


Wynwy, P., Converging Factors for Continued Fractions. Part II 








Numerische Mathematik Bd. 1, S. 1—28 (1959) 


Uber diskrete und lineare Tschebyscheff-A pproximationen 


Von 
E. STIEFEL 


Es sei ein lineares iiberbestimmtes Gleichungssystem fiir die # Unbekannten 
X, Xg,+++, X» Vorgelegt 


Aj Xt AjpgXet ss +AinXm+co;=0, 7 =1,2,...,m, (4) 


so daB also »>m ist. Um weitlaufige Diskussionen zu vermeiden, sei voraus- 
gesetzt, daB je m Gleichungen den Rang m haben. Beniitzen wir die geometri- 
sche Ausdrucksweise, indem wir (%,, %2,..., %,) als Punkt P im euklidischen 
Raum R” auffassen, so sind also in diesem Raum m Ebenen gegeben, von denen 
je m sich sauber in einem Punkt schneiden. 

Setzt man einen Punkt P in die Gleichungen (1) ein, so werden sie wegen 
der Uberbestimmtheit nicht erfiillt sein, sondern es werden Residuen 


hh; = Aj 1% + Aja %q + +++ + Aj Xm + C; (2) 


iibrigbleiben. Die Tschebyscheffsche Ausgleichungsaufgabe besteht bekanntlich 
darin, P so zu bestimmen, daB 


Max|h;|, 7 =1,2,...,m 


méglichst klein ist. Sie nimmt eine sehr anschauliche Form an in demjenigen 
Spezialfall, wo die Normalvektoren 


1; = (451, Gj, +++) Am) (3) 
zu unseren Ebenen Einheitsvektoren sind. 


Man muB dann namlich denjenigen Punkt bestimmen, dessen Maximalabstand 
von den » Ebenen méglichst klein ist. Wir sprechen kurz von ,,Abstandsfall“ 
und werden ihn gelegentlich zur Illustration unserer Uberlegungen benutzen. 


1. Theoretische Grundlagen 


Es sollen in diesem Abschnitt einige der klassischen und von DE LA VALLEE- 
Poussin [1] stammenden Resultate neu hergeleitet werden*. Unser Ziel ist aber, 
die Beweise so konstruktiv zu gestalten, daB aus ihnen sofort eine Rechentechnik 
zur Bestimmung des Punktes bester Approximation flieBt. Wir nennen diesen 
Punkt den Tschebyscheff-Punkt oder kurz T-Punkt, indem wir ganz allgemein 
den Buchstaben T als Abkiirzung fiir ,, Tschebyscheff‘‘ verwenden. 

Der Begriff des Referenzpunktes. Unter einer Referenz verstehen wir eine 
Auswahl [E,] von (m-+1) unter den gegebenen Ebenen £,, E,,...,£, des 





* Literaturverzeichnis am Ende der Arbeit 








-_ E, STIEFEL: 


Raumes R”. [Ein griechischer Index bedeute immer eine Auswahl von (m +1) 
Zahlen aus der Reihe 1, 2, ..., m.] Falls diese Ebenen sich nicht zufallig in einem 
Punkt schneiden, bilden sie ein Simplex des R™. Das System der zugehérigen 
Normalvektoren n, hat nach Voraussetzung den Rang m und somit existiert 
eine lineare Abhangigkeit FA.n, =0 (4) 


zwischen diesen Normalvektoren, deren Koeffizienten abgesehen von Propor- 
tionalitat eindeutig bestimmt sind. AuBerdem gilt 
A,+0 fiir alle Werte von a (5) 


da andernfalls der Rang nicht m ware. (5) heiBe die zur Referenz gehérige 
charakteristische Relation. Ein Punkt P werde Referenzpunkt genannt, wenn fiir 
seine Residuen gilt entweder 


sgnh,=sgndA, oder sgnh, = — sgnd, (6) 


fiir alle Indizes o der Auswahl. 
Wir wollen einmal sehen, was diese Vorzeichenvorschrift bedeutet. Aus der 
Definition (2) der Residuen und aus der charakteristischen Relation (4) folgt 


DAehte = Lhe&c (7) 
und dies kann wegen (6) geschrieben werden 
DX Aol | Ae] = + LA“: (8) 


Wegen (5) ergibt sich daraus, daB die Betrage |h,| der Residuen beschrankt 
bleiben, wenn der Referenzpunkt P bei fester Referenz wandert. Dasselbe gilt 
von den Abstaénden von P von den Referenzebenen, die ja zu den |/,| propor- 
tional sind mit festen positiven Proportionalitatsfaktoren. Diese Beschranktheit 
charakterisiert aber das Innere des von den Referenzebenen gebildeten Simplexes, 
so daB man einen Referenzpunkt auch als Punkt im Innern des genannten Sim- 
plexes definieren kénnte. Es wurde der neue Ausdruck ,,Referenz“ gepragt, weil 
in den Anwendungen diese geometrische Bedeutung verschwindet und nur die 
Vorzeichenregeln (6) wesentlich bleiben. 

Ein Punkt des R” heiBe Referenzpunkt schlechthin, wenn mindestens eine 
Referenz [E,] existiert, beziiglich der die Zeichenregeln (6) gelten. 

Als letztes benétigen wir den Begriff des Zentrums einer Referenz. Es ist dies 
derjenige Referenzpunkt, dessen Residuen h, alle denselben Betrag haben; er 
ist also charakterisiert durch 

h, = hsgn A, (9) 


wobei h/ eine (positive oder negative) GréBe ist, deren Betrag die Referenzabwei- 
chung der gegebenen Referenz heiBe. || ist in der Tat ein MaB dafiir, um wieviel 
die Ebenen E, davon abweichen, sich in einem Punkt zu schneiden. Die Berech- 
nung dieses Zentrums kann folgendermaBen geschehen. Die Relationen (7) und 


pee h> A, sgn a, = DiAeC, 


oder Y Agte 


h= (10) 





DI Ao| 





Diskrete und lineare Tschebyscheff-Approximationen 3 


Das Zentrum selbst ergibt sich dann durch Auflésen des linearen Gleichungs- 
systems: 


Agy Xy + Age Xo t +++ + Agim Xm + Cg = hsgnd,. (11) 


Im ,,Abstandsfall ist natiirlich das Zentrum einer Referenz einfach das Inkugel- 
zentrum des betreffenden Simplexes und die Referenzabweichung ist der Radius 
der Inkugel. Die (m +1) Gleichungen (11) sind auf Grund der charakteristischen 
Relation miteinander vertraglich und eindeutig lésbar und somit ist das Zentrum 
eindeutig bestimmt. 

Sei nun P wieder ein beliebiger Referenzpunkt beziiglich [E,] und seien h, 
seine Residuen. Wegen (8) kann (10) geschrieben werden 


h = 4 Zl del ol 
oder 

he 
Daraus folgt: 


Satz 1. Die Referenzabweichung ist ein gewogenes Mittel aus den Residuen- 
betragen irgendeines Referenzpunktes. Die Gewichte sind positive nicht verschwin- 
dende Zahlen, und zwar die Betraige der Koeffizienten in der charakteristischen 
Relation. 

Aus diesem Satz ergibt sich weiter die fiir jeden Referenzpunkt giiltige Un- 
gleichung 

Min | /,| <|h| < Max, (13) 


und dies ist aquivalent mit folgender Minimax-Eigenschaft des Zentrums. 


Satz 2. Das Zentrum einer Referenz hat unter allen Referenzpunkten folgende 
auszeichnende Eigenschajten. Einersetts ist sein maximales Residuum in bezug auf 
die Referenzebenen am kleinsten und anderersetts sein minimales Residuum am 
groBten. 

(Im Abstandsfall lies ,,Abstand* statt , Residuum“‘.) 

Fiir irgendeinen Punkt P im Raum gilt noch (7), wahrend fiir (8) die Vor- 
zeichenregeln verwendet wurden. Aus (7) und (10) schlieBt man 





hin D Ache 
DAs 
und daraus 
| h| < Max |/h,| (14) 


und dies heiBt doch 
Satz 3. Das Zentrum einer Referenz ist Tschebyscheff-Punkt der (m-+-1) 
Referenzebenen. 
Wir wollen noch die Einzigkeit dieses Punktes beweisen. Wegen (14) miissen 
die Residuen h, eines anderen T-Punktes P die Eigenschaft 
|| = Max|h,| , (15) 
haben. Dies hat zur Folge 
|A.| =| Al. 








4 E. STIEFEL: 


Bezeichnen wir fiir einen Moment die (dem Betrage nach gleichen) Residuen des 
Zentrums mit h*, so ist dies gleichbedeutend mit 


[A] S| Ae | 
oder 
- = .> 
ut —1,)) = 0, falls AF =O 
<0, falls A*<o0. 


Indem man die Vorzeichenregeln (6) fiir die h* beriicksichtigt, stellt man fest, 
daB die Ausdriicke 4,(A¥ —h,) alle dasselbe Vorzeichen haben. Aus (7) folgt 


jedoch YA, (ht —h,) =0 
und wegen (5) ist dies nur méglich fiir h,=h*, das hei®t, wenn P mit dem Zentrum 
zusammenfallt. 


Satz 4. (m-+1) Ebenen, die sich im R™ in allgemeiner Lage befinden, haben 
genau einen T-Punkt, nadmlich thr Zentrum. 





4 tz 
& & , A 
T 
S\ : 
8 
fy 
Fig. 1. T-Punkt von 3 Geraden in allgemeiner Lage Fig. 2. Menge derT-Punkte von 3 Geraden in spezieller Lage 


Es ist auf die Wichtigkeit der in der Einleitung gemachten Rang-Voraus- 
setzung hinzuweis uhrend zum Beispiel fiir m=2 und im ,,Abstandsfall“ 
der 7-Punkt von drei Geraden in allgemeiner Lage das Inkreiszentrum des von 
ihnen gebildeten Dreiecks ist (Fig. 1), treten Komplikationen auf, wenn etwa 
zwei der Geraden parallel sind (Fig. 2). In der Tat ist dann jeder Punkt auf der 
Verbindungsstrecke der Kreiszentren A, B ein T-Punkt. Im allgemeinsten Fall 
von (m+ 1) Ebenen im R™ ist ein konvexes Polyeder bestehend aus T-Punkten zu 
erwarten. 

Der Austauschsatz. Wahrend wir uns bis jetzt eigentlich nur mit elementaren 
Eigenschaften von Simplexen und ihrer Inkugeln befaBt haben, wollen wir nun 
das in der Einleitung gestellte 7-Problem in Angriff nehmen, wo also n>m 
Ebenen im R™ gegeben sind. Wir iibernehmen von DE LA VALLEE-PoussIN die 
Grundidee, den gesuchten T7-Punkt durch sukzessive Konstruktion von Inkugel- 
zentren zu erreichen, beniitzen aber iiber ihn hinausgehend als wesentliches Hilfs- 
mittel den folgenden 


Satz 5. (Austauschsatz). Es sei eine Referenz [E,]| also eine Auswahl von 
(m-+1) unter den n gegebenen Ebenen E; vorgelegt sowie ein zugehdriger Referenz- 





Diskrete und lineare Tschebyscheff-Approximationen 5 


punkt P. 2: °°? E; eine weitere Ebene, die nicht in der Referenz enthalten ist. 
Dann ko w /benen von [E,| und E; eine neue Referenz gebildet werden, fiir 
die P auch m. “eferenzpunkt ist. 


Fig. 3 zcig,. die einfache anschauliche Bedeutung dieses Sachverhaltes, der 
schriftlich formuliert etwas kompliziert aussehen mag. (Wenn ein Punkt P im 
Innern eines Dreiecks FE, FE, F, und eine Gerade FE, gegeben sind, so kann aus zwei 
Dreiecksseiten und E, ein neues Dreieck gebildet werden, das wieder P im Innern 
enthalt, namlich im Fall der Figur das 
Dreieck FE, E,F,; wir sagen kurz E, sei 
gegen E, ausgetauscht worden.) 

Obwohl man fiir diesen Satz nahe- 
liegende und einfache geometrische Be- 
weise geben kénnte, wahlen wir den fol- 
genden etwas komplizierteren Beweis, 
da er uns erlauben wird, die Nummer 
der auszutauschenden Ebene zu _be- 
rechnen. 

Der Einfachheit der Formeln halber 
nehmen wir m=3; fiir allgemeines m Sig, 3. Sem Austeunsbents 
gehen die Uberlegungen genau gleich. 





Sei also [F,, E,, E3, E,] die gegebene Referenz (Tetraeder!), sei 
Ay + Age + Agng + Ayn, = 0 (16) 


die charakteristische Relation zwischen den Normalen und sei FE, die hinzu- 
tretende Ebene. Da P Referenzpunkt ist, gelten fiir seine Residuen h, die Regeln 

. b t 
a sgnh,=sgnd,, o =1,2,3,4. (17) 
(Wenn rechts das negative Zeichen steht, verlauft die Diskussion analog.) Zwi- 
schen den 4 Normalen der Referenz und der Normalen , zu EF, besteht eine 
lineare Abhangigkeit, die wir in der Form 


fy My + Me Mg + Mg Ngz + fag + Ms = 0 (18) 


annehmen diirfen. Aus (16) und (18) ergeben sich die Relationen zwischen je 
4 Normalen 


Ay ms + (Ay Me — Agfa) Me + (Ay Mg — Agfa) Mg + (Ara — Agia) 
Ay ms + (Ag tty — Ay Me) % + (Agtg — Ag Me) M3 + (Agta — Agta) M4 = 0 (19) 
Agms + (A3 a — Ay Mg) M4 + (Ag Me — re fe + (Agfa — Ag fs) %q = 0 

Agms + (Ag tty — Ay Ma) 2 + (Agog — Agfa) Me + (Ages — Ag Mg) Mg = O- 


Fall 1., Das Residuum h, von P in bezug auf E; sei >0. Dann werde die 
Ebene ausgetauscht, deren Nummer durch 


Min © , @m4,2,3,4 


o 


gegeben ist. 

Die Quotienten hierin sind paarweise verschieden; ware dies namlich nicht 
der Fall, so wiirde mindestens ein Glied in einer Gleichung (19) verschwinden, 
was unserer Rang-Voraussetzung widerspricht. 








6 E. STIEFEL: 


Unbeschadet der Allgemeinheit kénnen wir annehmen, da8 das Minimum 
von der Nummer 1 geliefert wird, so daB gilt 
My He My Lat} My Ma 
=—-< S,dhda —S— <r S, SoS xc 
A Ag A dg Ay My 


oder nach Beseitigung der Nenner 


Sgn (Ayla — Agty) =sgn(Ayd), sgn (Ayug — Agfy) = sgn (A, Ag), 
sgn (Ay lg — Age) = sgn (A, Ay). 


Dividieren wir die charakteristische Relation zwischen n,, 2, 3, %4 (also die erste 
Zeile 19) durch sgn 4,, so erkennen wir, daB die Koeffizienten in dieser Relation 
der Reihe nach die Vorzeichen 


+, sgnd,, sgnd;, sgnd, 


haben. Die Residuen h,, h,, hs, hy in bezug auf die Ebenen E,, E,, E,, Ey haben 
aber auf Grund von (17) und der Voraussetzung des Falles 1 dieselben Vorzeichen, 
so daB P tatsichlich Referenzpunkt beziiglich der Referenz [E,;, E,, E;, E4] ist, 
in der E, durch E; ersetzt wurde. Damit ist der Austauschsatz im vorliegenden 
Fall bewiesen. 

Fall 2. Das Residuum /,; sei <0. Dann ergibt sich analog, daB die Ebene 


mit der Nummer 


Ho 
Max F] 
weggelassen werden muB. 


Fail 3. hs=0. In diesem Fall liegt P auf E, und es ist gleichgiiltig, ob man 
dies als Spezialfall des Falles 1 oder 2 ansieht. 


Hat man an Stelle von (17) 
sgnh, = — sgnA,, 


so bewirkt dies offensichtlich eine Vertauschung von Max mit Min in den bis- 
herigen Formeln. 

Zusammenfassend ergibt sich nun folgende Austauschregel. 

In den Bezeichnungen von Saiz 5 sei die lineare Abhangigkeit zwischen den 
Normalen , der gegebenen Referenz und der hinzutretenden Normalen »; 


1; + D Me My = 0- (20) 
Fiir die Residuen h, des Referenzpunktes P gilt nach (6) 
sgnh,=esgndé,, e=+1. 


Dann ist die Nummer der auszutauschenden Ebene gegeben durch 





Min “* , falls ¢«h;=0 
~ (21) 








Max 5°, falls eh; <0. 





Dabei ist noch 4; das Residuum von P in bezug auf die hinzutretende Ebene. 
Ist P speziell das Zentrum der Referenz, so ist wegen (9) ¢ das Vorzeichen von h. 





Diskrete und lineare Tschebyscheff-Approximationen 7 


Beispiel (Fig. 4). m=2. Gegeben die 3 Gleichungen 
E.: % =h, = (1,0) 
E;: Xo = hy No = (0, 1) 
Es: %+%,—3=hy m3= (1,1) 


At, Amt, hom —1 























sowie der Punkt P(1, 1). A; =1, hg =1, hg = —1, a 
é=1. Als 4. Gleichung trete hinzu 
Ey: %4%—%*%+t1=h, F 
m, = (1, — 1) 
Ny — Ny + Ny = 0 if! 
4illl 
fy = —1, Me =1, Wg =0. Ps 
h,=1, Min a. =-—41 wird durch E, gelie- 
Fig. 4. Beispiel eines Austausches 


o 
fert, also ist diese Gerade auszutauschen. 
Das Austauschverfahren. Mit Hilfe des Austauschsatzes kann nun das in der 
Kinleitung gestellte T-Problem leicht gelést werden. Es seien also m Gleichungen 
mit m Unbekannten gegeben, reprasentiert durch » Ebenen £,, E,,..., E,, im 





Fig. 5. Konstruktion des T-Punktes eines Systems von Geraden nach dem Austauschverfahren 


R” (Fig. 5 ,,Abstandsfall“, m=2, » =5). Wir starten mit einer willkiirlich aus- 
gewahlten Referenz [E,] und berechnen ihr Zentrum Z sowie ihre Referenzab- 
weichung ||. Sodann werden alle Residuen 4; von Z in bezug auf die » Ebenen 
E; ermittelt. Sind sie alle dem Betrage nach <|h|, so wird die Konstruktion 
abgebrochen. Andernfalls gibt es mindestens eine Ebene £;, so dab 


[Al > [A (22) 








8 E. STIEFEL: 


ist. Nach dem Austauschsatz existiert eine neue (zweite) Referenz, in welcher 
eine der alten Ebenen E, durch E; ersetzt wurde und fiir welche Z auch noch 
Referenzpunkt ist. Es ist nun wesentlich, daB fiir die Referenzabweichung | h*| 
dieser zweiten Referenz gelten muB 


|A*| > |r| (23) 


das heiBt, die Referenzabweichung wird beim Austauschen sicher vergréBert. 


Beweis. Nach Satz 1 ist |h*| gewogenes Mittel aus den Residuenbetragen 
von Z in bezug auf die zweite Referenz. Dabei sind die Gewichte wesentlich 
positiv. Nun haben aber m unter diesen Betrigen den Wert |h| und einer ist 
gleich |/;|. Aus (22) folgt daher die Behauptung. 

Die zweite Referenz wird nun analog behandelt wie die erste. Nach endlich 
vielen Schritten muB der KonstruktionsprozeB abbrechen, denn es gibt nur end- 
lich viele Referenzen und es kann auch niemals dieselbe Referenz wiederholt 
auftreten, da die Referenzabweichung monoton wachst. Wir gelangen also zu 
einer letzten Referenz mit einer Referenzabweichung |H| und einem Zentrum, 
dessen Residuen in bezug auf unsere » Ebenen mit H; bezeichnet seien. 

Es gilt 

|H;|S|H|, 7=1,2,...,, (24) 


da andernfalls die Konstruktion fortgesetzt werden kénnte. Nun ist aber nach 
Satz 3 unser letztes Zentrum 7-Punkt der letzten Referenz. Fiir irgendeinen 
Raumpunkt P und seine Residuen h, beziiglich der letzten Referenz gilt daher 


Max |h,| =| A| 
und wegen (24) folgt 
Max |h,| => Max|4,|. (25) 


A fortiori gilt natiirlich fiir das Residuum h; von P beziiglich irgendeiner unter 
den ” gegebenen Ebenen 


Max |h;| => Max|H;|, 7 =1,2,...,% (26) | 
mit anderen Worten 


Satz 6. Das letzte Zentrum, das durch das Austauschverfahren erreicht wird, 
ist der T-Punkt der n gegebenen Ebenen. Dieses Zentrum hat die charakteristische 
Eigenschaft, daB seine n Residuen dem Beirage nach héchstens gleich der Referenz- 
abweichung sind. 

Das letztere folgt aus (24). 

Die GréBe |H|=Max|H,| nennen wir die T-Abweichung der gegebenen 
Ebenen; sie ist also gleich der Referenzabweichung der letzten Referenz. 

Die Einzigkeit des T-Punktes von » Ebenen ist leicht nachzuweisen, so daB 
also das Austauschverfahren immer zum selben Resultat fiihren muB. Sei in 
der Tat 7* irgendein Punkt bester Approximation mit Residuen H#, dann gilt 
sicherlich 

Max | H*| = Max|H,| 


und aus (25) folgt fiir irgendeinen Raumpunkt P 
Max |h,| => Max|H;*| > Max|H?|. 





Diskrete und lineare Tschebyscheff-Approximationen 9 


T* ist also auch 7-Punkt der letzten Referenz. Die Einzigkeit des 7-Punktes 
einer Referenz wurde aber friiher bewiesen. 

Da das Austauschverfahren in jeder Referenz gestartet werden kann, folgt 
aus dieser Einzigkeit und der Monotonie der Referenzabweichung 


Satz 7. Die T-Abweichung ist gleich der grépten Referenzabweichung. 


Hieraus werde noch die folgende wichtige Tatsache hergeleitet. Es sei P ein 
beliebiger Referenzpunkt, das heiBt ein Raumpunkt, fiir den (m-+-1) Ebenen so 
gefunden werden kénnen, daB er in dem von ihnen gebildeten Simplex liegt. 
Sind hf, seine Referenzresiduen und ist / die Referenzabweichung, so folgt aus 
Satz 2 ' . 

? Min|h,| <|A|; somit aus Satz7 Min|h,| <|H]. 
Wie fiir jeden Raumpunkt gilt aber nach (26) 


Max |h,| => Max|H;| =|H|. 
Daher 
Satz 8. Jeder Referenzpunkt liefert eine obere und eine untere Schranke fiir die 


T-Abweichung, namlich 
Min|/,| < || < Max|h,|. (27) 


Dabei lauft der Index o iiber die Referenz und der Index 7 von 1 bis n. 


Alle diese Ergebnisse haben im ,,Abstandsfall‘ umuittelbare anschauliche 
Bedeutung. Wir wollen noch einige geometrisch formulieren. 


Satz 9. Seien im Raum R” mehr als m Ebenen in allgemeiner Lage gegeben. 
Dann existiert genau eine Kugel, die (m +-1) unter diesen Ebenen von innen beriihrt 
und die tibrigen schneidet. 

Sie ist zugleich die gréBte unter allen Inkugeln. Ihr Zentrum ist der Tscheby- 
scheff-Punkt des Ebenensystems, das heiBt hat kleinsten Maximalabstand von den 
Ebenen. 


Ist also in der Ebene ein System von Geraden gezeichnet, so geniigt es, mit 
dem Auge den Kreis aufzusuchen, der 3 von diesen Geraden von innen beriihrt 
und die iibrigen schneidet, um den 7-Punkt zu finden. 

Der Zusammenhang mit der Methode der kleinsten Quadrate. Man hat natiirlich 
Interesse daran, das Austauschverfahren mit einer giinstigen Referenz zu be- 
ginnen, die nach einigen wenigen Schritten zum Ziel fiihrt. Wir wollen zeigen, 
daB die Lésung des gegebenen iiberbestimmten Systems (1) nach der Methode 
der kleinsten Quadrate zu einer solchen Referenz verhelfen kann. 

Sie besteht bekanntlich darin, daB die Summe der Quadrate der durch Glei- 
chung (2) definierten Residuen minimal gemacht wird: 


n 


> AF = Min. (28) 


j=1 


Den Punkt, dessen Koordinaten diese Aufgabe lésen, nennen wir kurz den Gauf- 
Punkt der gegebenen Gleichungen. 


Satz 10. Der GauB-Punkt ist immer Referenzpunkt, das heift er liegt in einem 
Simplex, das von (m +-1) unter den n gegebenen Ebenen begrenzt ist. Wegen Satz 8 
liefert er also eine obere und eine untere Grenze fiir die T-Abweichung. 








10 E. STIEFEL: 


Um den Beweis einfach zu gestalten, wollen wir nach Berechnung des GauB- 
Punktes G die Gleichungen (1) so mit Faktoren +1 multiplizieren, daB die 
neuen Residuen von G alle =O werden. Selbstverstiandlich ist G auch Gaub- 
Punkt dieses modifizierten Gleichungssystems, wie man unmittelbar an (28) 
erkennt. Mit anderen Worten, wir kénnen beweistechnisch annehmen 


h,=0, 7 =1,2,...,m. (29) 


Durch Differentiation nach der Koordinate x, ergibt sich unter Beriicksichtigung 
der Gleichungen (2) . 

DA a;,=0, k =1,2,...,™ 

j=l 


oder in eine vektorielle Gleichung zusammengefaBt 
DL Ajyn; =0; (30) 


dabei sind die »; die durch (3) definierten Ebenennormalen. Wir tragen diese 
Normalen vom Nullpunkt des R™ aus ab und bezeichnen die Endpunkte mit N,. 
Ferner lassen wir den trivialen Fall beiseite, wo alle 4; Null sind, also die gegebenen 
Gleichungen exakt gelést werden kémnen. Wegen (29) besagen dann die Glei- 
chungen (30), daB der Nullpunkt in der konvexen Hiille der » Punkte N, liegt. 
Nach einem bekannten Satz iiber konvexe Polyeder kann man (m-+1) Punkte 
N, so auswahlen, daB der Nullpunkt auch noch in der konvexen Hiille dieses 
reduzierten Punktsystems liegt. Es existieren daher (m +1) nichtnegative Ge- 
wichte A,, die nicht alle verschwinden, so daB gilt 


Di Ag%, = 0. (34) 
Dies ist aber nichts anderes als die charakteristische Relation beziiglich der 
Referenz [E,], die zu den ausgewahlten Indizes o gehért. Infolgedessen gilt 
sogar wegen (5) 
A,>0 
fiir alle o und da die Residuen h, des GauB-Punktes G auch positiv sind, hat man 


sgn h, = sgn, 

und somit ist der GauB-Punkt Referenzpunkt beziiglich [E,] (w.z.b.w.). 

Natiirlich kann es mehrere von Ebenen E; begrenzte Simplexe geben, in denen 
G liegt. Indem man ein méglichst ,,groBes“ unter ihnen als erste Referenz fiir 
das Austauschverfahren wahlt, wird man einen giinstigen Start und schnell 
‘scharfe Grenzen fiir die T-Abweichung bekommen. 

T-Ausgleichung mit Nebenbedingungen. Mitunter kommt es vor, daB das in 
der Einleitung gestellte 7-Problem gelést werden muB unter einer linearen Neben- 
bedingung, so daB also der Lésungspunkt eine vorgegebene Ebenengleichung 


Es Ay Xt Ag h%gt +++ + Ay Xm + ¢ =0 (32) 


exakt befriedigen muB. Die Normale nennen wir einfach 


1 == (@,, Ag, «++, Bp) (33) 





Diskrete und lineare Tschebyscheff-Approximationen 11 


Wir nehmen an, daB sich E und die gegebenen Ebenen £,, E,, ..., E,, in all- 
gemeiner Lage befinden. Zunachst passen wir unsere Terminologie der veranderten 
Situation an. Eine Referenz [E,] ist jetzt eine Auswahl von m unter den Ebenen 
E,, E,,..., £, und der Index @ soll tiberhaupt eine Auswahl von m Zahlen aus 
der Reihe 1, 2, ...,  bedeuten. Zwischen der Normalen m und den Normalen N, 
einer Referenz besteht wieder eine charakteristische Relation 


An+ DAn, =0 (34) 


mit nichtverschwindenden Koeffizienten. Ein Punkt aus E heiBt Referenzpunkt, 
wenn fiir seine Residuen h, gilt 


sgnh,=sgnd, oder sgnh, = —sgnA, (35) 


er liegt dann auf einer Seitenflache des Simplex gebildet aus E und den E£,. 
Das Zentrum der Referenz ist wieder derjenige Referenzpunkt, dessen Residuen 
dem Betrage nach gleich sind. 

Theorie und Formeln lassen sich parallel zu den bisherigen Untersuchungen 
entwickeln; wir gehen nicht auf Einzelheiten ein, sondern begniigen uns damit, 
einiges hervorzuheben. Die vielgebrauchte Relation (7) lautet jetzt 


. DAA, = AC + DAe (36) 


und dementsprechend die Formel (10) fiir die Referenzabweichung 


h |e (37) 


Die Satze 1—3 bleiben wortlich giiltig. Da8 auch der Austauschsatz richtig ist, 
erkennt man am einfachsten, indem man die gegebene Referenz und auch die 
hinzutretende Ebene £; mit der Bedingungsebene E schneidet; man ist dann auf 
den gewodhnlichen Austauschsatz im (m—1)-dimensionalen Raum E zuriick- 
gefiihrt. Daher lat sich das Austauschverfahren unverandert iibernehmen und 
die Satze 6—8 bleiben richtig. Speziell ist also der bedingte 7-Punkt dadurch 
charakterisiert, ein Referenzzentrum zu sein, dessen ” Residuen héchstens gleich 
der Referenzabweichung sind. 

Wir stellen also riickblickend fest, daB eine Nebenbedingung die Theorie der 
T-Ausgleichung iiberhaupt nicht wesentlich modifiziert (im Gegensatz zum Bei- 
spiel zur GauBschen Ausgleichung). Dasselbe gilt natiirlich, wenn statt einer 
mehrevre Nebenbedingungen einzuhalten sind. 

Es sei dem Leser iiberlassen, die Austauschregel (21) auf den bedingten Fall 
zu iibertragen. 

In der Geoddsie tritt haufig der folgende Spezialfall auf. Es seien m Unbe- 
kannte x1, %g, -.-, %, gemessen worden und die MeBwerte seien (—c,), (—¢), .--, 
(—c,,). AuBerdem seien einige lineare Bedingungen gestellt, die von den x; exakt 
erfiillt werden miissen. (Bedingte Ausgleichung in der Terminologie der Geodaten.) 


Die gegebenen Gleichungen (1) lauten dann einfach 
Kj+co;=0, 7 =1,2,...,m 


ihre Matrix ist die Einheitsmatrix, die Normalen , sind die Grundvektoren des 
Koordinatensystems im R™. Wie man sieht, l4Bt sich auch ein solches Problem 
ohne weiteres mit dem Austauschverfahren lésen. 








12 E. STIEFEL: 


2. Die Rechentechnik 


Es soll ein Algorithmus fiir das Austauschverfahren entwickelt werden, der 
sich leicht automatisieren 14Bt. Das Hauptproblem ist offenbar die Berechnung 
des Zentrums einer gegebenen Referenz, also im ,,Abstandsfall‘‘ die Bestimmung 
der Inkugel eines Simplex. Die Aufgabe zerfallt in drei Teile, némlich in die 
Bestimmung der charakteristischen Relation (4), der Referenzabweichung h gemaB 
Formel (10) und endlich in die Auflésung des Gleichungssystems (11) fiir die 
Koordinaten des Zentrums. Wir setzen den Algorithmus im Falle m =3 ausein- 
ander; fiir andere Werte von m verlauft er analog. Die Gleichungen (11) fiir das 
Zentrum kénnen dann etwa geschrieben werden 


Ay, Xy + Ayg Xq + Ay3 %3 + (cy — hsgnd,) =0 
yy X + Ag X%_ + Ag X%3 + (Co — Asgn A») = 0 (38) 
31 X1 + Ago X%_ + Ags X3 + (Cg — hsgn Ax) = 0 
gy % + Age Xp + Aq3 %3 + (Cg —hsgn Ay) = 0 
und wir arbeiten mit der Matrix 
Ay1 M2 Az (Cy —Asgnd,) 
Ao Acro Aoq (Co —hsgnd 
A=| 721 22 23 (Ce gn As) (39) 


431 Iz agg (C3 — hsgn Ag) 
‘ 
441 Ag Agg (Cy — hsgn Ay) 


dieses Gleichungssystems. DaB die letzte Kolonne vorlaufig nicht bekannt ist, 
stért im folgenden nicht. Unsere drei 1eilprobleme lassen sich nun gemeinsam 
lésen durch Dreieckszerlegung dieser Matrix. Es seien also L und & vierreihige 
Matrizen von Dreiecksgestalt : 


hy 0 1 %2%s3 “14 
faa 6 
L=|{ ‘21 “2 io 1 Yo3 Yea (40) 
Igy ls Iss 1 134 
lay Lgo las lag 0 1 


dergestalt, daB A =LR gilt. Diese Dreieckszerlegung wird mit Hilfe des Gaub- 
schen Algorithmus (auch gelegentlich nach BANACHIEWICZ benannt) durchgefiihrt. 
Uber Einzelheiten mag man sich bei ZURMUHL [2] orientieren. Speziell ist leicht 
ersichtlich, daB die ersten 3 Kolonnen in L und R ohne Kenntnis der unbe- 
kannten 4. Kolonne von A ermittelt werden kénnen. Da die Gleichungen (38) 
vertraglich sind, also die Determinante von A verschwindet, ergibt sich weiterhin 
aus A =LR, daB /,,=0 sein muB. 

Bezeichnet man mit A die Zeile A,, A,, Ag, Ay und mit x die Kolonne %,, %2, %3, 1, 
so l4Bt sich die charakteristische Relation (4) schreiben 


AA=0, also (AL)R=0O, (41) 


wobei die Formel (10) fiir die Referenzabweichung h bereits benutzt wurde. 
Andererseits lauten die Gleichungen (38) fiir das Zentrum 


Ax=0 also L(Rx) =0. (42) 





Diskrete und lineare Tschebyscheff-Approximationen 13 


(41) ist erfiillt, wenn wir AL =O setzen; dies ergibt die Gleichungen fiir die 4 


Ly Ay + Igy Ag + Iga Ag + lar Ag = 0 
lag Aq + l39d3 + lyn dg = 0 (43) 
I33 Ag + lag dy = 0. 


Hierin sind alle Koeffizienten bekannt, da sie aus den drei ersten Kolonnen von L 
stammen. Man ldst diese Gleichungen riickwartsgehend auf, indem man etwa 
A, =1 setzt. (Sie besagen iibrigens einfach, daB das skalare Produkt der Kolonne A 
mit jeder Kolonne von L Null sein muB.) 


Damit kann nun die Formel (10) fiir die Referenzabweichung 


— LAala 
eae 3" 
ausgewertet werden und die 4. Kolonne in A ausgefiillt werden. 

Nun berechnet man auch die vierten Kolonnen in der Dreieckszerlegung, 
womit die 4. Kolonne von R bekannt wird. Die Gleichung (42) kann erfiillt 
werden, indem man Rx gleich der Kolonne 0, 0, 0, 1 setzt. (Bei der Linksmulti- 
plikation mit L beachte man /,,=0, was iibrigens eine willkommene Kontrolle 
fiir die Dreieckszerlegung liefert.) So entstehen die Gleichungen fiir die x 


%y + 2% t+ %3%3+Nn4=O0 
X% + 193 %3 +124 = 0 (44) 
x3 + 134 = 0. 


Sie besagen, daB die Zeile x,, x,, x3, 1 auf den ersten drei Zeilen von R ortho- 
gonal steht. (44) wird riickwartsgehend aufgelést und liefert das Zentrum. 
Jetzt miissen noch die Austauschregeln (21) automatisiert werden. Es trete 
also eine 5. Gleichung 
As, X + Ase X%_ + A53 %3 + Cs = 0 


hinzu. Nach (18) mu8 man eine lineare Abhangigkeit zwischen den 5 Normalen 
von der Form 
Hy My + Mg Mg + lg Mg + Mag + Ns = O 


herstellen. Natiirlich ist diese Abhangigkeit nicht eindeutig bestimmt; man kann 
etwa “4=0 annehmen, da zwischen 4 Normalen immer eine Relation (namlich 
die charakteristische) mit nichtverschwindenden Koeffizienten besteht. Man hat 
also zur Bestimmung von jy, M2, Ms genau dasselbe Problem zu lésen beziiglich 
der Ebenen £,, E,, E;, E; wie oben bei der Bestimmung der 4A beziiglich der 
Ebenen E£,, E,, E3, Ey. Man ersetzt daher einfach in der 4. Zeile von A die 
Elemente 4@4;, 442, 443 Aurch a5,, 452, 453 (das 4. Element spielt keine Rolle) und 
berechnet die neue Linksmatrix L, die sich nur in der letzten Zeile von der alten 
unterscheidet. Die Kolonne ji, 2, “3,1 mu dann orthogonal stehen auf den 
ersten 3 Kolonnen dieser neuen Matrix. 

Zusammenfassend stellen wir fest, daB die Bestimmung des 7-Punktes nach 
dem Austauschverfahren einen aus endlich vielen Schritten bestehenden Algo- 
rithmus ergibt. Dabei muB bei jedem Schritt eine (m +1)-reihige Matrix zerlegt 








14 E. STIEFEL: 


werden, was aquivalent ist mit der Auflésung eines Systems von (m +1) Glei- 
chungen. Keine exakte Lésung des T-Problems kann mit weniger Aufwand aus- 
kommen. 


Beispiel. Nach TSCHEBYSCHEFF auszugleichen 


4 — 1,557 =0 
%,+2%,+4%, —1,560=0 
X%y+3%+ 9%,—1,492 =0 
%, + 5%, + 25%; — 1,238 = 0 
+ 4% + 16x — 1,380 = 0. 





Wir wiahlen die ersten 4 Gleichungen als erste Referenz 


's. @¢* 1 100* 

* * 

a2une% 9 z=-|'? ; R= 12 
1$ 9° 13 3 es 
$39 15 15 * . 


A=—1, As=5, A=—5, A=1, h=—0,00175. 





Damit die erginzten Matrizen 


10 0 —1,55875 100 —1,55875 

Aut? 4 — 1,55825 ra-| 12  0,00025 

“143 9 —1,49375 ]’ 4 0,021 42 
1 5 25 —1,23625 1 


Koordinaten des Zentrums 


%,=1,55875,  %,=0,04259, x= —0,02142. 





Residuen des Zentrums (aus den gegebenen Gleichungen) 


I, =0,00175, he = —0,00175, hg =0,00174, hy= —0,00180, hs = 0,00639. 








(Die Betrage der 4 ersten Residuen miissen abgesehen von Rundungsfehlern mit 
|h| tibereinstimmen.) Nach Satz 8 ergeben sich die Grenzen fiir die T7-Abweichung 


0,001 75 S$ H < 0,00639. 


Die 5. Gleichung muB in die Referenz eingefiihrt werden. 
Abanderung der letzten Zeile von A: 


10 0 1 
Ant’ * 7) oom cal’? 

;> 2 233 

1 4 16 148 

1 an 
h=—- 3 M=2, fa=— =» M=9O, 
Lot Bad =, Ha =o, 
A 3’ Ay 5’ A, 15’ 4 





Diskrete und lineare Tschebyscheff-Approximationen 15 


Da h negativ ist, hat man in der Austauschregel ¢ = —1 zu nehmen und da h, 
positiv ist, ist der gréBte Quotient maBgebend, namlich 


Hs _ 8 
4A 15 


Daher muB die dritte Gleichung weggelassen werden. Die neue Referenz ist 


% — 1,557 =0 
%+2%,.+ 4%,— 1,560 =0 
X%y + 5% + 25 %3 — 1,238 = 0 
%, + 4x, + 16%, — 1,380 = 0. 





Die analoge Rechnung ergibt die Referenzabweichung 
h = 0,003 69 
und das Zentrum : 
x, =1,56069,  %,=0,03987, x3 = — 0,02103. 
Es hat in der dritten Gleichung das Residuum 
hs = — 0,00097. 


Da dieser Wert dem Betrage nach kleiner ist als die Referenzabweichung, sind 
wir beim 7-Punkt angelangt. Die 7-Abweichung betragt 


H =0,00369. 


3. Anwendung auf die Approximation von Funktionen 


Polynom-A pproximation von Funktionen einer Variablen. In diesem Abschnitt 
sollen hauptsachlich die Querverbindungen unserer allgemeinen Theorie zu be- 
kannten Dingen gezogen werden. Es seien auf einer x-Achse » Abszissen (auch 
,, Stiitzstellen“ genannt) 

Ny < Kgs <x, (45) 


gegeben; es ist fiir das Folgende wesentlich, daB sie paarweise verschieden und 
nach wachsender GréBe angeordnet sind. Eine Funktion f(x) sei an diesen 
Stellen tabelliert, das heiBt man kenne die ,,Stitzwerte“ 


ty=(x), 7 =1,2,...5. (46) 


Diese Stiitzwerte [nicht etwa der ganze Verlauf von /(x)] sollen durch ein Polynom 
(m — 1)-ten Grades 


Pyy—1(%) = Og + Oty % tg H® ++ + Oya 0 (47) 
méglichst gut approximiert werden, so daB fiir die Approximationsfehler 
gilt 

Max|h,;|, 7 =1,2,...,% méglichst klein. (49) 
Wegen 


Th; = Og + Oy Xj + tg HF + $ Oya Xf? — fi (50) 





16 E. STIEFEL: 


ist dieses Problem ein Spezialfall unseres allgemeinen in der Einleitung ausein- 
andergesetzten Problems. Die  Gleichungen (50) fiir die Unbekannten ap, «,, 
. ++, %,—, Miissen eben nach TSCHEBYSCHEFF ausgeglichen werden. 

Durch die lineare eindimensionale Anordnung der Stiitzstellen ergeben sich 
Vereinfachungen, die kurz besprochen werden sollen. 

Zu jeder Gleichung (50) gehért eindeutig eine Stiitzstelle, eine Referenz ist 
also jetzt eine Auswahl [x,] von (m-+1) Stiitzstellen. Die Bestimmung der 
P / charakteristischen Relation, also der linea- 

/ ren Abhangigkeit zwischen den Normalen 


Hyon th, x, Ky». 8 
P(x) o ( o ) 
hat durch Auflésen des homogenen linearen 


f(a) Gleichungssystems 
> A, =0,”" w=0,1, 2,..., (mm —4) 
(0) 


fh zu geschehen. A, ist also (abgesehen vom 


Vorzeichen) die van der Mondesche Deter- 














Z; A X5 %g Minante aus den m von x, verschiedenen 
Abszissen der Referenz, also ein Produkt 
aus Differenzen dieser Abszissen. Da es 
auf Proportionalitat nicht ankommt, dividieren wir durch die van der Mondesche 
Determinante aus allen Punkten der Referenz und erhalten 
1 
te TT ee— me) * 64) 
(t= 0) 

durch diese Formel wird die Auflésung eines linearen Gleichungssystems fiir die 
A, iiberfliissig. Durchlauft man die Abszissen der Referenz von links nach rechts, 
so haben die A, offenbar alternierendes Vorzeichen. 

Was in der allgemeinen Theorie ein Punkt war, ist jetzt ein Polynom (m— 1)- 
ten Grades, und die grundlegende Definition (6) lehrt uns, daB ein Referenzpolynom 
die charakteristische Eigenschaft besitzt, an den Referenzstellen Approximations- 
fehler h, von alternierenden Vorzeichen aufzuweisen. (fig. 6: Referenzparabel be- 
ziiglich 4 gegebener Stiitzstellen.) 

An Stelle vom Zentrum einer Referenz sprechen wir hier vom nivellierten 
Referenzpolynom; dies ist natiirlich dasjenige spezielle Referenzpolynom, dessen 
Approximationsfehler alle denselben Betrag |h| (Referenzabweichung) haben. 
Nachdem man A aus der (10) entsprechenden Formel 





Fig. 6. Referenzparabel 


h = — PL fo 2 

EM ae 

berechnet hat, ergeben die Formeln (9) und (48) die folgenden (m-+-1) Stiitz- 
werte des nivellierten Polynoms P,,_, (x) 


Pn—1(%>) =f, + hsgn A,. (53) 


Aus diesen Stiitzwerten kann P,_, mit Hilfe einer der gelaufigen Interpolations- 
formeln berechnet werden, so daB man auch bei diesem Schritt keine linearen 
Gleichungen aufzulésen braucht. 


Diskrete und lineare Tschebyscheff-Approximationen 17 


Wir halten uns nicht bei der Ubersetzung der Sdtze 1—4 auf, sondern be- 
merken nur noch, daB der Austauschsatz vollstandig trivial ist. Er besagt namlich 
im wesentlichen: 

Hat man an (m-+1) Abszissen x, Ordinaten h, gegeben, deren Vorzeichen 
alternieren und tritt eine weitere Abszisse x; mit einer Ordinate h; hinzu, so 
kann man aus m Abszissen unter den x, und x; einen neuen Satz von (m +1) 
Abszissen bilden, so daB die zugehérigen Ordinaten wieder im Vorzeichen alter- 
nieren. Oder etwas freundlicher formuliert: Wenn eine Anzahl Damen und 








| _| alle Referenz 








| S neue Referenz 


Fig. 7. Austauschverfahren im Falle der Polynomapproximation 


Herren so in einer Reihe aufgestellt sind, daB Nachbarn immer verschiedenes 
Geschlecht haben, und wenn ein weiterer Herr sich in der Reihe aufstellt, so kann 
man immer einen anderen Herrn nach Hause schicken, so daB die neue Reihe 
wieder die genannte Nachbareigenschaft aufweist. (Achtung, der neue Herr kann 
sich auch ans Ende der Reihe stellen.) 

Diese unbestrittene Tatsache ist der Schliissel zur Lésung des 7-Problems 
mit Hilfe des Austauschverfahrens. Man wahlt eine Referenz, konstruiert das 
zugehérige nivellierte Polynom und berechnet seine Approximationsfehler an 
allen n Stiitzstellen. Gibt es unter diesen Fehlern noch einen /;, der dem Betrage 
nach gréBer als die Referenzabweichung || ist, so nimmt man die zugehdrige 
Stiitzstelle x; in eine neue Referenz auf, mit der man analog weiterfahrt. In 
Fig. 7 ist dies illustriert ; der Anschaulichkeit halber sind dort die einzelnen Feh- 
ler h; durch einen Polygonzug verbunden, den wir kurz ,,Fehlerkurve'’ h(x) 
nennen, da er ja in den Stiitzstellen mit der wahren Fehlerkurve P,_,(x) — f(x) 
iibereinstimmt. 

Nach endlich vielen Schritten des Austauschverfahrens gelangt man zum 
Polynom bester Approximation; es ist dadurch charakterisiert, daB es an (m +1) 
Stiitzstellen Fehler von gleichem Betrag | H| und alternierenden Vorzeichen auf- 
weist, wahrend die iibrigen Fehler dem Betrage nach <| H! sind. 

Wir wollen die diesbeziigliche Rechentechnik und die praktisch wichtigen 
Verfeinerungen des Austauschverfahrens hier nicht schildern, sondern verweisen 
auf den Bericht [3] und die dortigen Literaturangaben. Interessant ist es jedoch, 








18 E. STIEFEL: 


der Bedeutung von Satz 10 in unserem Spezialfall der Polynom-Approximation 
etwas nachzugehen. Er besagt, daB das nach der Methode der kleinsten Quadrate 
berechnete Approximationspolynom eine Fehlerkurve mit mindestens m Zeichen- 
wechseln besitzt. Sowohl bei der GauBschen als auch der T-Approximation hat 
also die Fehlerfunktion oszillatorischen Charakter. Und zwar treten um so mehr 
Schwingungen auf, je gréBer der Grad des approximierenden Polynoms ist. Die 
Ausdehnung solcher Ergebnisse auf den Fall, wo eine Funktion /(%) in ihrem 
ganzen V erlauf (und nicht nur an diskreten Stellen) angenahert wird, ist naheliegend. 

Funktionen mehrerer Variabeln. Nun seien in einem ebenen Koordinaten- 
system (x, y) wiederum » Punkte (x;, y,;) als Stiitzstellen gegeben sowie zuge- 
hérige Stiitzwerte /;. Wir wollen uns zunachst die allereinfachste Aufgabe stellen, 
nadmlich diese Stiitzwerte durch eine lineare Funktion 


P(x) =a + 0% + HY 
der beiden Variabeln x, y zu approximieren. Die Approximationsfehler seien 
h; = P(x;) — fj =% + 0% %; + ay; —f,. (54) 
Wieder haben wir ein lineares Gleichungssystem fiir die Unbekannten a, %,, %» 
und somit ist die allgemeine Theorie unseres 1. Abschnitts mit # = 3 anwendbar. 


Zunichst besagt die Rangvoraussetzung der Einleitung, daB der Flacheninhalt 
von je drei Stiitzpunkten 


niemals verschwindet, daB also nie drei Stiitzstellen auf einer Geraden liegen. 
Diese Voraussetzung ist zwar in der Praxis oft nicht erfillt, da man gerne die 
Knotenpunkte von quadratischen Gittern und dergleichen als Stiitzstellen nimmt. 
Dies ist nicht allzu tragisch; die Rechentechnik des 2. Abschnitts laBt sich auch 
dann iibernehmen, falls man derartige spezielle Lagen in verniinftiger Weise als 
Grenzfalle der allgemeinen Lage ansieht. Es ist jedoch méglich, daB — wie in 
Fig. 2 illustriert wurde — die Lésung des 7-Problems nicht mehr eindeutig 
bestimmt ist. 

Eine Referenz ist eine Gruppe von 4 Stiitzstellen. Nehmen wir der Ein- 
fachheit halber gerade die Stellen (%,, ,) bis (%4, v4), so ergibt die charakteristische 
Gleichung das Gleichungssystem 


A +A, + As +A, =0 
Ay % + Ag Xp + Ag %3 + Ag xX, =0 
A, Vi + Ae V2 t+ Ag V3 + Ag V4 = 0 


mit den Lésungen 

A,=Aesa, A2=—Ajsa, Ags=Arog, 42 = Ares. (55) 
Die Vorzeichen der A sind also durch die Orientierungen der in der Vierergruppe 
enthaltenen Dreiergruppen gegeben. Die Fig. 8 zeigt in zwei typischen Fallen, 
welche Vorzeichen die Fehler 

h; = Og + 0X; + H2 yj — fF 

eines Referenzpolynoms P(x) aufweisen miissen. Natiirlich kénnen in jeder Figur 
alle Vorzeichen zugleich umgekehrt werden [was in der zweiten Figur gegeniiber 


Diskrete und lineare Tschebyscheff-Approximationen 19 
(55) tatsachlich geschehen ist]. In der dritten Figur rechts liegen nun drei Punkte 


auf einer Geraden. Man kann dies als einen Grenzfall sowohl der ersten als auch der 
zweiten Figur ansehen, indem man den Linienzug 1, 2, 3 streckt. Es ergibt sich, daB 


® | 30 ® 
®, 3p D 
S) ® 37 O 
S TO 
® 7 1? ® 
cy) 


Fig. 8. Vorzeichenregeln fiir die lineare Approximation in 2 Variabeln 


in den drei auf einer Geraden liegenden Stiitzstellen die Vorzeichen alternieren miis- 
sen, wahrend in der vierten Stiitzstelle das Vorzeichen gleichgiiltig ist. Zum Aus- 








tauschverfahren ist nichts weiteres zu bemerken. e) 
J9 
4 2 
oy @ 
© 
' 
7d 
Fig. 9. Kreisgeometrische Invariante Fig. 10. Vorzeichenregeln 


Um aber festzustellen, welche Erscheinungen bei der Approximation von 
Funktionen mehrerer Variabeln zu erwarten sind, sei noch andeutungsweise der 
nachst kompliziertere Fall herangezogen, namlich die Approximation durch Poly- 
nome von der Gestalt 


P(x) = Og ++ Oy % + Oy Y + Hy (Xx? + Y?). (56) 


Die Rangvoraussetzung verlangt hier, daB niemals vier Stiitzstellen auf einem 
Kreis liegen. An Stelle des Flacheninhalts von 3 Punkten bekommen wir es mit 
einer kreisgeometrischen Invarianten von 4 Punkten zu tun. Sie kann fiir 
4 Stiitzstellen 1, 2, 3, 4 definiert werden als das Produkt 4,.3, des (orientierten) 
Flacheninhalts von 1, 2,3 mit der Potenz von 4 in bezug auf den Umkreis der 
ersten drei Punkte. Also in Fig. 9 


Ajes4 =F : (ad? —71*). 


Eine Referenz ist hier eine Gruppe von 5 Punkten und die Koeffizienten in der 
charakteristischen Relation sind analog zu (55) gegeben durch 


A, = Aesas, Az = — Ajsas, As = Areas, Ay = — Ajess, As = Aiesa- (57) 


Als kleines Beispiel fiir die Vorzeichenregeln der Fehler eines Referenzpolynoms 
mag man Fig. 10 nehmen; es sei ferner noch auf die wichtige Arbeit [5] und die 
altere Arbeit [6] verwiesen. 








20 E. STIEFEL: 


Man erkennt, daB mit wachsendem Grad des Approximationspolynoms die 
Verhiltnisse rasch kompliziert und unanschaulich werden und daB zur Klarung 
Begriffsbildungen der algebraischen Geometrie herangezogen werden miiBten. Es 
ist daher besser, bei der Rechentechnik des 2. Abschnitts zu bleiben und nicht 
zu versuchen, die fiir Polynomapproximation in einer Variablen entwickelten 
speziellen Methoden auf mehrere Variabeln zu iibertragen. 


4. Theorie der S-Funktionen 


Es sind noch verschiedene Fragen unbeantwortet. Zum Beispiel, wie kann 
man sich einen giinstigen Start fiir das Austauschverfahren sichern, so daB man 
nur mit wenigen Schritten dieses Verfahrens zu einer guten Approximation 
kommt ? 

Oder — im Falle der Polynomapproximation in einer Variablen — wie niedrig 
kann der Grad des Polynoms gewahlt werden, damit die verlangte Approxima- 
tionsgenauigkeit gerade noch erreicht wird ? 

Es soll hier versucht werden, einen méglichen Weg zur Beantwortung solcher 
Fragen aufzuweisen. Die Grundidee ist dabei, die klassische Theorie der Ent- 
wicklung einer Funktion f(x) nach Tschebyscheffschen Polynomen stark zu ver- 
allgemeinern und speziell auch die ge)aufige Technik der Abkiirzung einer Potenz- 
reihe durch Tschebyscheff-Entwicklung, die im englischen Schrifttum treffend 
als _,,telescoping’’ bezeichnet wird [4]. An Stelle der Tschebyscheff-Polynome 
treten andere und allgemeinere Funktionen, die dem betreffenden Approxima- 
tionsproblemangepaBt sind und S-Funktionen heiBen mégen. 


Definition und Grundlagen. Um nicht zwischen einer und mehreren unab- 
hangigen Variabeln unterscheiden zu miissen, stehe im folgenden x fiir den lau- 
fenden Punkt eines euklidischen Raumes beliebiger aber fester Dimension. Es 
seien nun  Basisfunktionen 


Po(*)» Pr (%), «++» Pn—a1 (*) (58) 
gegeben; wir untersuchen Approximationen durch lineare Aggregate 
P(X) = Hy Po(*) +o Pr (%) + +++ + %p-1 Pn—1(*)- (59) 


Weiter seien in unserem Raum  Punkte x; gegeben, so daB wir also ebenso 
viele Punkte wie Basisfunktionen haben. 

Wir wollen voraussetzen, daB in diesem System die Interpolation ausfiihrbar 
und eindeutig sei. Damit ist folgender Sachverhalt gemeint. Wahlt man m Punkte 
unter den x; beliebig als Stiitzstellen aus, so gibt es genau eine Linearkombination 


Mo Po(X) + oy Pr (%) + +++ + Om —1 Pm—1(%)» 
die in diesen Stiitzstellen gegebene Stiitzwerte annimmt. 
Fiir ein gegebenes m<_n interessieren wir uns nun fiir die Funktion 


®,,,(%) = Bo Po(*) + Bi G1 (X) +--+ + Bm Pm (%) (60) 


welche in jedem unserer » Punkte x; den Wert Null am besten approximiert 
unter der Nebenbedingung, daB der Héchstkoeffizient B,, einen festen gegebenen 
Wert +0 habe. 





21 


Diskrete und lineare Tschebyscheff-Approximationen 


In Formeln bedeutet dies, daB wir ein iiberbestimmtes lineares Gleichungs- 
system von » Gleichungen 


Bo Po(%;) +B P1(%j) +++ + Bin—1 Pm—1(%j) + Bin Pm (x;) = 0 (61) 


vor uns haben, in welchem die Unbekannten fp, f,, ...,8,,-, heiBen und die 
Konstanten die Werte £,, ¢,,(x;) haben. 
Die Residuen in der Terminologie unseres ersten Abschnitts sind einfach die 
Funktionswerte 
h; = ®,(x;) (62) 


der Funktion @,,(x). Die Bezeichnungen sind so gewahlt, daB Methoden und 
Resultate unseres ersten Abschnitts anwendbar sind; die dortige Rangvoraus- 
setzung ist wegen unserer Annahme iiber die Interpolation erfiillt. Eine Referenz 
ist eine Gruppe von (m-+-1) Stiitzstellen x,; zu ihr gehért eine charakteristische 
Relation, deren Koeffizienten 2, durch Auflésen des linearen Gleichungssystems 
DL Pul%e) 4g =0, fe =0,14,...,(m —1) (63) 

(9) 
bestimmt werden miissen. Aus den Hauptsatzen des 1. Abschnitts (speziell 
Satz 6) ergeben sich unter Beriicksichtigung von (62) die folgenden charak- 
teristischen Eigenschaften der Lésung ®,,(x) unseres gegenwartigen 7-Problems. 
Zu @®,,(x) gehért eine Referenz [x,| dergestalt, dafB in den Referenzpunkten 


®,, (x,) =H. sgn A, (64) 
gilt. Dabei ist |H| die 7-Abweichung. In den iibrigen Stiitzstellen ist 


Die Lésung @,,(x) ist eindeutig bestimmt. Die 7-Abweichung H ist iibrigens 
nicht Null. Ware namlich H =0, so wiirde aus (65) folgen 


®,,(x;) =0, 4 =1,2,...,% 


und wegen der Eindeutigkeit der Interpolation ergabe sich speziell f,,—0 ent- 
gegen unserer Annahme. Unter der m-ten S-Funktion S,,(x) verstehen wir nun 
Py» (*) 
_—. 

Da das Vorzeichen von H durch das 7-Problem selbst nicht bestimmt ist, ist 
allerdings S,,(«) nur abgesehen vom Vorzeichen eindeutig bestimmt. Man kann (6}) 
bis (66) zusammenfassen in folgende Definition. 

Die m-te S-Funktion S,,(x) von n Basisfunktionen g(x), 9 (X), «++ Pn—1(X) ™m 
bezug auf n gegebene Stiitzstellen x; hat folgende definierende Eigenschaften. 

1) S,,(«) ist eine Linearkombination von q(x), 9; (%), ---; Pm (4%): 

ts gibt eine Referenz von (m +1) Stiitzstellen x,, in denen gilt 


S 


~“m 


Si (x) = (66) 





(x,) =sgnA,, also |S,,(x,)| =1. 
Dabei sind die 4, die Lésungen des Gleichungssystems 


Yp(%) Ag =0; fe =0,1,...,(m—1). 


(a) 








22 E. STIEFEL: 


3) In den iibrigen Stiitzstellen ist 
| Sy (%;)| $1. 


Die praktische Berechnung dieser S-Funktionen kann mittels der folgenden 
einfachen Modifikation des Austauschverfahrens geschehen. Man wahlt eine 
Referenz [x,| von (m +1) Stiitzstellen und berechnet diejenige Funktion welche 
die Eigenschaften 1), 2) der Definition beziiglich dieser Referenz hat. (Inter- 
polation aus den Stiitzwerten sgn A, an den Stiitzstellen x,.) Gibt es dann auBer- 
halb der Referenz noch eine Stiitzstelle x;, in der diese Funktion einen Betrag 
>1 hat, so konstruiert man nach dem Austauschsatz eine neue Referenz, die 
x; enthalt. Mit ihr fahrt man weiter. 

Es mag durchaus sein, daB diese Konstruktion auch noch S-Funktionen ergibt, 
wenn die strenge Voraussetzung iiber die Interpolation nicht erfiillt ist. 

Die in Punkt 2) der Definition genannte Referenz nennen wir kurz die zu 
S,,(*) gehérige Referenz. Speziell besteht die zu S,_,(x) gehérige Referenz aus 
allen n Stiitzstellen. 


Entwicklung nach S-Funktionen. Gegeben sei ein lineares Aggregat 


Dy, (x) = %q Po(%) + G1 (%X) + +++ + Om Pm(X), (mM <n) (67) 


aus unseren Basisfunktionen. Wir wollen uns die Aufgabe stellen, es in den 
Stiitzstellen x; médglichst gut durch ein kiirzeres Aggregat 


P P,,_1(*) = Yo Po(*) + 1 Pr (*) + +++ + Ym —1 Pm—1 (*) (68) 
zu approximieren. Die Approximationsfehler (Residuen) seien 


hy = Py_a(%) — Py (%), 


7 


so daB also das iiberbestimmte Gleichungssystem 


h; = Yo Po(*;) + 1 (%;) qos + Ym—1 Pm—1(%;) ion ®,,(x;) (69) 


auszugleichen ist. Nach dem, was im ersten und dritten Abschnitt auseinander- 
gesetzt wurde, muB eine Referenz [x,] bestehend aus (m +1) Stiitzstellen gewahlt 
werden, und wir wahlen nun speziell die zur S-Funktion S,,(x) gehorige Referenz. 
Der nachste Schritt besteht in der Bestimmung des Zentrums der Referenz, das 
- heiBt der ,,nivellierten‘‘ Refrenzfunktion. Dazu braucht man die Referenzabwei- 
chung, welche nach (10) und (69) durch 


gegeben ist. Dabei sind die A, die in der Definition der S-Funktionen genannten 
GréBen. Die nivellierte Funktion ®,,,(x) hat dann nach (9) die Residuen 


hg = Mim SBN hg 


und somit die Werte 
®,,-; (X,) — ®,, (x4) + Ny sgn A, 


Wegen Punkt 2) in der Definition der S-Funktion kann man dies auch schreiben 


®,,_1(%9) = ®,, (x,) a hy Sm (x,) . 





Diskrete und lineare Tschebyscheff-Approximationen 23 


In dieser Gleichung stehen nur Funktionen, die sich aus den (m-+4) Basis- 
funktionen Qo, 9;, ---, Y, Zusammensetzen und die Gleichung gilt in den (m +1) 
Punkten der Referenz. Aus der Eindeutigkeit der Interpolation folgt daher die 


Identitat 

®,,_1 (x) = ®,, (x) + hy, Sw (x) 
und somit gilt in allen Stiitzstellen 

®,,-1 (x;) _ ®,,, (x;) T Ny Sn (x;) 

hy = Ny, Sy (%;) - 
Aus Punkt 3) der Definition der S-Funktion folgt weiter 
[4j| S| An| - 

Unsere nivellierte Funktion hat also die Eigenschaft, daB ihre simtlichen Residuen 


héchstens gleich der Referenzabweichung sind, sie ist daher nach Satz6 die 
Lésung des Approximationsproblems. 


oder 


Satz 11. Die beste Approximation eines (m-+-1)-gliedrigen Aggregats ®,, (x) 
aus Bastsfunktionen durch ein m-gliedriges ®,,_,(x) ist gegeben durch 


D,,-1 (x) = ®,, (x) + hy Sin(*) , 
dabei ist h,, aus (70) zu berechnen. ®,,_,(x) ist Referenzfunktion beziiglich der zu 
S,(x) gehorigen Referenz. 

Es sei nun eine Funktion /(x) im Raum unserer Variablen x vorgelegt; ihre 
Werte /(x;) an den  gegebenen Stiitzstellen bezeichnen wir kurz mit /;. Unsere 
Annahmen iiber die Interpolation garantieren, daB ein Aggregat 

Oy Po(*) + Oy Gi(%) + +++ + %y—1 Pn—a(*) 
existiert dergestalt, daB_. 
h; = XK Po (%;) +  P; (%;) + 8 $y Pn—1 (%;) 
gilt. Wir schreiben kurz 
f(X) ~ % Po(%) + Oa Pr (%) ++ + On —1 Pn—1 (*) (71) 


und sagen, f(x) sei in bezug auf die Stiitzstellen x; nach den Basisfunktionen 
entwickelt worden. Diese Entwicklung soll nun in eine solche nach S-Funktionen 
umgebaut werden. Die rechte Seite von (71) ist ein -gliedriges Aggregat ®,,_ , (x). 
Wir approximieren es nach Satz 11 durch ein Aggregat ®, (x), haben also 


f(x) ~®,,_ (x) _ hy S;,—1(%) . 
@,,_, ist also das (m — 1)-gliedrige Aggregat, welches f(x) am besten approximiert. 
Nun wird @,_, nach Satz 11 durch ein ®,_, approximiert, so daB gilt 
f(x) ~®,,_3(x) ii hy 2 Sn—2(*) at h,_1 Sy—1(%) ' 


®,_. ist im allgemeinen nicht das (n — 2)-gliedrige Aggregat, das /(x) am besten 
annihert; es wird jedoch eine gute Annadherung sein, falls |, _,| klein gegeniiber 
|, | ist. Indem man auf diese Weise sukzessive die S-Funktionen einfiihrt, 
gelangt man zu der Beziehung 


f(x) ie ‘m—1(%) 7 hy Sin (X) rom Vins Sin+1(*) eer e Se hy-aSy—-1(%), (72) 








24 E. STIEFEL: 


die in jeder Stiitzstelle eine exakte Gleichung ist. Geht man bis zum Ende, so 
ergibt sich die Entwicklung aus 


f(x) ~ — 2h S;(x), (73) 


in welcher also @,,_,(x) die m-te Partialsumme ist. 


Satz 12. Jede Funktion {(x) kann beziiglich der Stiitzstellen x; nach S-Funk- 
tionen entwickelt werden; diese Entwicklung hat die wesentliche Eigenschaft, daB 
jede Partialsumme die nachste Partialsumme in den Stiitzstellen am besten appro- 
ximiert. 

Es sei nun die Aufgabe gestellt, f(x) durch ein m-gliedriges Aggregat von 
Basisfunktionen zu approximieren. Falls die Koeffizienten h; in (72) rasch ab- 
nehmen, wird @,,_,(x) eine gute Annaherung sein. Fiir die Approximations- 
fehler folgt aus (72) und den definierenden Eigenschaften der S-Funktionen 


|®,,1(x;) —4| S| An + |Amsa| +++++ |h,_4| (74) 


und wenn die Koeffizienten rasch genug abfallen, sind also die Approximations- 
fehler von der Gréfenordnung |h,,|. Ist diese Approximation noch nicht geniigend, 
so wird man ein Austauschverfahren starten beginnend mit der zu S,, (x) gehérigen 
Referenz. Denn diese Referenz hat bei der Herleitung von Satz 11 die beste 
Approximation der Partialsumme @,,(x) durch ®,,_,(x) hervorgebracht. 

Die zu den S-Funktionen gehorigen Referenzen sind also giinstig fiir den Start 
von Austauschverfahren. 

Ist jedoch die Aufgabe vorgelegt, /(x) mit vorgeschriebener Genauigkeit 
durch ein Aggregat von Basisfunktionen (dessen Lange frei bleibt) anzunahern, 
so macht man mit der Einfiihrung (72) der S-Funktionen dort halt, wo der 
Entwicklungskoeffizient h,, gerade noch kleiner als die gegebene Toleranz ist. 

Man sieht also, daB die S-Funktionen fiir die 7-Approximation ungefahr 
dieselbe Bedeutung haben wie die orthogonalen Funktionssysteme fiir die Appro- 
ximation nach kleinsten Quadraten. 

Polvnom-A pproximation in einer Variablen. In diesem Spezialfall sind also 
die Basisfunk*:onen die Potenzen 


ee Oe ta 


der unabhangigen Variablen x; die A-Gleichung in der Definition der S-Funktionen 


lautet 
> 4A,=0, w=0,1,2,...,(m—1) 
(a) ; 


und wurde schon im dritten Abschnitt diskutiert. 
Sie hat nach (51) die Lésung 
A, = : 75 
Tl @—*) si 


(t +9) 





und die 4, haben alternierende Vorzeichen, falls die Referenzabszissen x, im 
Sinne wachsender x durchlaufen werden. Die Definition der S-Funktionen kann 
einfach formuliert werden: 

Die m-te S-Funktion S,,(x) ist ein Polynom m-ten Grades, das in (m +-1) Stiitz- 
stellen x, abwechselnd +1 ist und dessen Betrag in den tibrigen Stiitzstellen 1 ist. 





Diskrete und lineare Tschebyscheff-Approximationen 25 


Nehmen wir etwa als Beispiel »=5 dquidistante Stiitzstellen x;, so lassen 
sich die S-Funktionen ohne jede Rechnung sofort angeben, wie Fig. 11 zeigt. 
Die nétigen Informationen iiber diese S-Funktionen fassen wir in folgenden 
beiden Tabellen zusammen: 


























S-Tabelle A-Tabelle 
x Sy S, S; S, So S, S; Sy S; So 
x, q}—4 1 —4 1 4 | —4 qi —1 
%, | —1 1/—-05/—o5] 4 —4 
Xs 1 o}-1 0 1 6 —'2 1 
me 1 =1 | —1 | -—O3 05] 1 —4 | —2 
Xs 1 1 1 1 1 1 1 1 1 
16 6 4 2 1 














Links steht die Tabelle der Werte der S-Funktionen an den Stiitzstellen. 
Eine Kolonne der rechten Tabelle gibt zunachst die zur betreffenden S-Funktion 
gehorige Referenz an, indem die 
durch Zahlen besetzten Platze 
diese Referenz ausmachen. Zum 
Beispiel hat S, die Referenz x, 4 & 
%3, 5; in der Tat nimmt ja S, 
an diesen Stellen die Maximal- 7% ay a Zs 
werte +1 an. Die Zahlen in einer 
Kolonne sind die nach (75) berech- a 
neten A-Werte oder vielmehr dazu 
proportionale ganze Zahlen. Die 
letzte Zeile enthalt noch die Gré- 
Ben >| A,|. 

Als Beispiel werde nun die Auf- Fig. 11. System der S-Funktionen fiir 5 Stiitzstellen 
gabe gestellt, die in der ersten 
Kolonne des folgenden Rechenschemas gegebenen Stiitzwerte /; durch ein Polynom 
zu approximieren, und zwar so, daB die Fehler héchstens 0,01 betragen. (Es 
handelt sich um Werte der Exponentialfunktion im Intervall von 0 bis 1.) 


+ & 























ai 





I 
! 
| 
| 
| 
! 
| 
\ 
' 
| 
! 
| 
! 
| 


























f=, hy Sy ®, hs Ss ®, ®,—f 
1,00000 — 0,000405 0,999 595 0,008 723 1,008 318 8318 
1,284.03 + 405 1,284435 — 8723 1,275712 — 8318 
1,648 72 — 405 1,648 315 — 1,648 315 — 405 
2,11700 +405 2,117405 8723 2,126128 9128 
2,718 28 — 405 2,717875 — 8723 2,709152 — 9128 
648 52340 420840 
h,4= — 0,000405 hs = — 0,008 723 h,= — 0,105 210 


Durch skalare Multiplikation der ersten Kolonne mit der ersten Kolonne der 
A-Tabelle erhalt man nach (70) den ersten Entwicklungskoeffizienten h,; die 
2. Kolonne des Schemas ergibt sich aus der Wertetabelle von S, und damit in 





26 E. STIEFEL: 


der 3. Kolonne die Wertetabelle des Polynoms 3. Grades ®, entsprechend der 
Formel in Satz 11. Mit ®, rechnet man analog weiter. Da |/3| noch unterhalb 
der Toleranz 0,01 liegt, aber |,| diese weit iiberschreitet, muB mit dem Appro- 
ximationspolynom 2. Grades ®, abgebrochen werden, so daB die Entwicklung 


a { ~®, + 0,008 723 S, + 0,000405 S,. 
Fiir die vollstandige Entwicklung wiirde man finden 


f ~1,753525 + 0,850417 S, + 0,105 210 S, 
+ 0,008 723 Ss + 0,000405 S,. 


Man sieht, wie rasch die Koeffizienten abfallen. Als Lésung der gestellten Auf- 
gabe kann man also das Polynom 2. Grades ®, nehmen, dessen Stiitzwerte in 
der vorletzten Kolonne des Schemas enthalten sind. In der letzten Kolonne 
wurden noch die zugehérigen Fehler berechnet ; der Maximalfehler ist 0,009128. 

Das Polynom @, ist Referenzpolynom von / in bezug auf die zu S, gehérige 
Referenz. Dies erkennt man daran, daB die unterstrichenen Werte in der letzten 
Kolonne im Vorzeichen alternieren. Fiir die 7-Abweichung H, das heiBt fiir 
den Maximalfehler des Polynoms 2. Grades bester Approximation liefert daher 


Satz 8 die Schranken 0,008318 < H < 0,009128. 


®, ist daher schon sehr nahe am Polynom bester Approximation. Es lohnt sich 
kaum, dieses zu berechnen. Trotzdem wollen wir ein Austauschverfahren starten. 
Als erste Referenz wahlen wir entsprechend der oben auseinandergesetzten Regel 
gerade die eben erwadhnte Referenz von S,. Die Referenzabweichung ist nach 
Formel (52) 4=—0,00872 und dies ergibt zunadchst nach Satz7 die scharfere 
untere Grenze 0,00872 < H 
fiir die 7-Abweichung. Das nivellierte Referenzpolynom P,(x) hat an den 
Referenzstellen x,, %2, %4, x; die durch (53) gegebenen Werte; der Wert fiir x, 
muB durch Interpolation hinzugefiigt werden. 


























P,(*) P,—f 
x, | 1,00872 | 0,00872 | 0,00514 
x, | 1,27531 —872 | —1010 
x, | 1,04764 — 108 —35 
x, | 2,12572 872 1084 
xs | 2,70956 — 872 333 


Da alle Fehler héchstens gleich der Referenzabweichung sind, ist P,(x) das 
Polynom bester Approximation, das heiBt die gewahlte Referenz ist bereits die 
endgiiltige. In der 3. Kolonne obiger Tabelle sind die Fehler angegeben, die das 
nach der Methode der kleinsten Quadrate berechnete GauB-Polynom zweiten 
Grades aufweist. Es approximiert etwas schlechter als ®,. Wie Satz 10 erwarten 
l4Bt, ist es ein Referenzpolynom und liefert die ziemlich schlechten Schranken 


0,005 14S HS 0,01084 
fiir die 7-Abweichung. 


Diskrete und lineare Tschebyscheff-Approximationen 27 


Grenztibergang, T-Funktionen. Wir wollen im Intervall (—1, +1) der x-Achse 
n dquidistante Stiitzstellen 


—1 = Hy <i Mg LHX, = 1 


annehmen und das m-te S-Polynom S,,(x) in bezug auf diese Stiitzstellenver- 
teilung betrachten. Bei festem Grad m lassen wir nun die Anzahl der Stiitz- 
stellen wachsen und schlieBlich unendlich werden. Ohne den Grenziibergang 
exakt durchzufiihren, wird man doch erwarten, daB S,,(x) gegen ein Polynom 
m-ten Grades T,,(x) strebt, das entsprechend der Definition der S-Funktionen 
folgende Eigenschaften hat. Es gibt (m+ 1) Abszissen x, in denen T7,,(x) ab- 
wechselnd +1 ist und es gilt 


\7,,(x)| <1 fiir alle x mit —i1S%<1. 


Polynome mit diesen Eigenschaften kann man aber explizit angeben, namlich 
die Tschebyscheff-Polynome 


T,,(*%) = cos(m arccos x). - 
Die Abszissen x, sind die bekannten Tschebyscheff-Abszissen 


%,= cosa, G=0,1,2.....,%. (76) 


Fiir die Rechenpraxis kann man daraus etwas lernen. Wenn die Anzahl m der 
Stiitzstellen groB ist gegeniiber dem Grad m, so wird S,,(x) nahezu mit T,, (x) 
iibereinstimmen. (In Fig. 11 zum Beispiel sind Sp», S,, S;, Ss; sogar exakt die 
ersten 4 Tschebyscheff-Polynome.) Nun hatten wir oben die Regel aufgestellt, 
daB man fiir eine Approximation (m— 1)-ten Grades das Austauschverfahren mit 
der zu S,,(x) gehérigen Referenz [x,| starten soll. Also ergibt sich folgende 
Faustregel: 

Sind die S-Funktionen nicht bekannt, so starte man ein Austauschverfahren fiir 
eine Approximation. (m — 1)-ten Grades mit denjenigen Stiitzstellen als erste Referenz, 
die den Tschebyscheff-Abszissen (76) am ndachsten liegen. 

Man kann natiirlich an einen analogen Grenziibergang denken im allgemeinen 
Fall, mit dem wir den 4. Abschnitt begonnen haben. x ist dann ein Punkt, der 
in einem Gebiet G eines héherdimensionalen Raumes variiert und es sind Basis- 
funktionen , (x) gegeben. Aus der Definition der S-Funktionen ergibt sich dann 
im Grenzfall folgende 


Definition. Die m-te T-Funktion T,,(x) von n Basisfunktionen ,(x) in bezug 
auf ein Gebiet G hat folgende definierende Eigenschaften: 


1) T,,(x) ist eine Linearkombination von q(x), 9(%), ---, Pm(%)- 
2) Es gibt in G einen Satz von (m-+41) Punkten x,, in denen gilt 


T,,(*,) = sgn A,. 
Dabei sind die A, die Lésungen des Gleichungssystems 
LD Pu(%) 4g =0; pe =0,1,...,(m —1). 
(0) 


3) In G gilt |T,,(x)|S<1. 








28 E. STIEFEL: Diskrete und lineare Tschebyscheff-Approximationen 


Existieren diese Funktionen, so ergeben sie sicher ein wichtiges Hilfsmittel 
zur Lésung von Approximationsaufgaben. Wir schlieBen mit einem kleinen 
Beispiel aus dem Gebiet der Funktionen von zwei Variabeln x,y. Die Basis- 
funktionen seien 

Po=1, Pi=*, Po=V, Pe=x*+y" 
und das Gebiet G das in Fig. 12 gezeichnete re- 
gulare Sechseck. Die Heranziehung der Ergeb- 


nisse des 3. Abschnitts erleichtert die Verifika- 
tion der folgenden Liste der 7-Funktionen. 


T-Funktion  zugehorige Referenz x, (Fig. 12) 





Timi E 
i= A,G 
T= 213 y C,D,F 


T, =2(x?+ y*) 1 A,B,C,E. 
Fig. 12. Zum System der T7-Funktionen Soll nun etwa die Funktion 
in einem Sechseck 
f=x+y+0,1(x?+ y*) 


approximiert werden, so ergibt die Entwicklung nach 7-Funktionen 








/=0,05T) + T, + 13 7, +0057, 


und durch Weglassen des letzten Terms entsteht die beste lineare Approximation 


005+%*+y¥y 
von / im Sechseck. 


Literatur 


[7] VaLLéE-Poussin, Cu. J. DE LA: Sur la méthode de |l’approximation minimum. 
Soc. scient. Bruxelles, Annales, 2 partie, mémoires, vol. 35, p.1—16. 1911. 

[2] ZURMUHL, R.: Praktische Mathematik fiir Ingenieure und Physiker, 2. Aufl., 
S. 123. Berlin-Géttingen-Heidelberg: Springer 1957. 

[3[ STIEFEL, E.: Numerical methods of Tschebyscheff appoximation. Vgl. KongreB- 
bericht ,,0On Numerical Approximation’: (Proceedings of a Symposium held 
by the Mathematics Research Center, at the University of Wisconsin, Madison, 
April 21—23, 1958) — University of Wisconsin Press 1958. 

[4] Lanczos, C.: Applied Analysis. Prentice Hall, Inc. 1956, speziell S. 457. 

[5] CoLLatz, L.: Approximation von Funktionen bei einer und bei mehreren unab- 
hangigen Veranderlichen. Z. angew. Math. Mech. 36, 198—211 (1956). 

[6] KircHBerGeErR, P.: Uber Tschebyscheffsche Annaherungsmethoden. Math. Ann. 
57, 509— 540 (1903). 

Institut fiir angewandte Mathematik 
der Eidgendssischen Technischen Hochschule 
Ziirich (Schweiz) 


(Eingegangen am 14. September 1958) 


Numerische Mathematik Bd. 1, S. 29—37 (1959) 


On certain methods for expanding the characteristic 
polynomial 
By 
ALSTON S. HOUSEHOLDER and FRIEDRICH L. BAUER 


A number of methods are available for expanding the characteristic poly- 
nomial of a matrix, symmetric, Hermitian, or otherwise, some obviously similar, 
others apparently quite disparate in principle. One of us (F. L. BAUER) has 
pointed out that the method of DANILEvsKII is in principle an extension of the 
method of KryLov. The purpose of this paper is to show systematically that this 
applies equally to a wider class of methods. Briefly, KRYLov forms a sequence 
of vectors 


(1) V,,U,= AY, Vg = Ag,... 


and by means of these obtains a set of linear equations satisfied by the coefficients 
of the minimal polynomial, or by some divisor of it, an idea previously used for 
theoretical purposes for example by TURNBULL and AITKEN. The methods to 
be discussed will be shown to amount to the application of particular methods 
for solving the system. 

The methods may therefore be considered mathematically equivalent. This 
is not to say, of course, that they are computationally equivalent, or equivalent 
from the point of view of the programmer. Obviously the superficial disparities 
would ordinarily be reflected in differences in the organization of the computa- 
tions. Moreover, there are efficient and inefficient ways of solving equations. 
Nevertheless, the recognition of genetic relationships will serve to exhibit common 
strengths and weaknesses and, perhaps, permit greater flexibility of application. 

Perhaps the oldest method, other than that of direct evaluation of principal 
minors, is due to LEVERRIER (1840). This method has been rediscovered, and 
somewhat elaborated, in much more recent times: Horst, FADDEEV and SOMINS- 
KII, SOURIAU, FRAME, WEGNER. These methods are based upon the Newton identi- 
ties relating the coefficients of an equation with sums of powers of the roots, and 
require repeated powers of the matrix. These methods will be considered to be a 
distinct family, and not be discussed here, although KryLov refers back to Lever- 
rier in the development of his own method. Also excluded from present con- 
sideration will be escalator methods, or methods of enlargement, including Samuel- 
son’s method. Other methods possess novelty only in handling the equation and not 
in its explicit development, hence are not of present concern. All references will 
be found in the list at the end and need not be mentioned individually, except 
where attention is called to a particular exposition. 

If the matrix A is of order , and its minimal polynomial of degree m, it 
can be shown that there exists a vector v, such that in the sequence (1), the 








30 ALSTON S. HOUSEHOLDER and FRIEDRICH L. BAUER: 


first m will be linearly independent and the first m-+-1 linearly dependent. In 
fact, this is true of ‘‘almost every’ vector in the space. Then if V is the matrix 
of order m whose columns are 1, ..., U»,: 


(2) V = (01, Ug, --+) Um)» 
this matrix is of rank m, and v,,,, is expressible by 
(3) Vit Um41 = 0, 


where the elements of / are the coefficients of the minimal polynomial y(A). In 
fact, if the vector / =/(A) is defined by 


(4) fF = (4,A,..., 4"), 
then the minimal equation is precisely 
(5) y(a4) =l7 f+ 14" =0. 


In case m =n, and the matrix is nonderogatory, one can eliminate the ele- 
ments of / from (5) and (3) to obtain the determinantal equation 


6) det (! A A... 2" )=0 


Vy Ve Us-+-Unay 


in which A occurs only in the first row instead of along the diagonal. Further- 
more, if one takes v,=e,, the first column of the identity J, the determinant 
is immediately reducible to one of order nm. This KRYLOv does. In case m<n, 
one drops rows from V so that the determinant is of order m-+1, reducible to 
one of order m. Following KryLov, Luzin and HLopovskII discussed the method 
extensively in a series of papers listed below. 

Observe, now, that when the equations are solved, one has 


(7) AV=VF, 
where 
(8) F=J—fer, J = (eg, eg,-+-»€,,0)- 


That is to say, F is the matrix with ones along the subdiagonal, with —/ in the 
last column, and zeros elsewhere. Almost any method for solving (3) would amount 
to the determination of a matrix U such that UV has some simple form, generally 
either a diagonal (possibly J), or a triangular matrix. Moreover, the matrix U 
is ordinarily generated as a product of matrices 


(9) U=.:--U,U,, 


each matrix being of simple form and effecting a partial reduction of the matrix V. 
As one of us (F. L. BAUER) has shown, the DANILEVSKII method applies the 
JORDAN reduction to reduce V to the identity: 


UV=I. 


The first step in this process is to take U, in the form 


(10) U, =I —o,",4, 





Methods for expanding the characteristic polynomial 31 


where , is a column vector, ¢, the first column of J, and o, a scale factor intro- 
duced here for convenience. The vector u, and scalar o, are to be selected so that 


(I — 0,4, ef) 4 = 4, 
hence 
This is always possible if ef v,, the first element of v,, is non-null. The usual 


choice is, in fact, v,=e,, whence o,=1 and this initial step in the reduction 
appears unnecessary. 


In any case, let 
A=U,V, A, =U,Adz", 


where U, =I if v;=e,, and the first column of V, is e,. Next, form 


(12) U, =I — o,u,eg 
so that 
U,vs = es, 
hence 
(13) Us = V2 — ee, 02€3 V2 =1, 


where, of course, vg is the second column in V,. If 


Vz=U,y,, A,=U,A,Uz", 


then 

(14) AV, =F 

or, schematically, 
Pe? A BSF uci 0° .4 WO... 
eee. .Lf01*%...] J04*%...}/40... 
*** Tloo*...] loo*...flod... 


One verifies readily that on the right, the first column in the product is e, and, 
for this to be so, the first column of the first matrix on the left must be also e.. 
Continuing, therefore, if 

(15) Wi=UV. A= UA", 


where the first 7 columns of V; agree with those of J, then the first s— 1 columns 
of A; agree with those of F. Moreover, the inverse of a matrix of the form 
I—ouv’ is easily written down: It is of the form J—tuv’, with 


o-t+r =v" 4. 
Eventually, V,=J, and A, =F. “ 

In the actual application of Danilevskii’s method the explicit formation of 
the matrix V is unnecessary. Instead, if A; agrees with F in its first i — 1 columns, 
one can ask for a matrix U,,, such that U,,,A; U,;{ agrees also in the ith column. 
The above discussion is intended to show, however, that this is entirely equi- 
valent to the inversion of V. Moreover, as remarked above, if v,=e,, then U,=/, 
and the first step in the reduction is evaded. On the other hand, the stability 








32 Aston S. HOUSEHOLDER and FRIEDRICH L. BAUER: 


of the system (3) to be solved, or the condition of the matrix V, will vary with 
the initial choice of v,, as shown by one of us (F. L. BAUER), and the initial 
selection of a U,=+I is equivalent to the selection of a v,+e,. 


Since Danilevskii’s method, in principle, applies the JORDAN method to the 
inversion of V, it is natural to consider the application of other methods of 
inversion. Chronologically Hessenberg’s method comes next, and to facilitate 
subsequent developments it will be described in somewhat greater generality than 
would ordinarily be used. The method develops a sequence of vectors b,=v,, 


b, as a linear combination of v, and v,, ..., 6; a linear combination of 1, v2, ..., v;. 
This leads to a matrix 
~ (16) B=VQ 


of columns b;, with Q an upper triangular matrix. The determination of Q is 
made after selecting a matrix C of linearly independent columns such that 


(17) C™B=P 
is lower triangular. It follows from this that 
V-1=QP-!C™, 
However, (7) can be written 
A(V Q) = (VQ) (QF Q), 
(18) AB = BT, 
where T has the HESSENBERG form 
T11 T12 T13 ++ 


(19) T = Te1 Teo Tag +s 
O T3020 T33 ee 


and, indeed, if Q is unit upper triangular, then 
Ti41,46= 1. 


The generalized HESSENBERG method, however, forms T and B (but not V) 
directly, and in fact, on considering (18) column by column, one has, first, 


the orthogonality condition leading to 


Hence if c, and 6, are not themselves orthogonal, then t,, and hence }, can be 
found. Next 
A bz = b %2 + b2T22 + 4s, 
-orthogonality providing that 


cz A by = C3 by To + CF dg Tap. 


Methods for expanding the characteristic polynomial 33 


If c, and 6, are not orthogonal, one can obtain 1,,, t2. and 0b, in that order. 
Subsequent steps are obvious, and can fail only if c?b;—0 for some b;-+0. But 
automatically some 6,,,, will vanish (except for the presence of rounding errors) 
for some mn. 

Since @ has not been formed explicitly it remains to obtain F from 7. One 
method for transforming T into F is given by SCHWARZ. Another arises from the 
observation that Q7 is the KRYLOV sequence for T with the initial vector ¢,. 
Still otherwise, Q may be calculated recursively. Let 


1 2 %3--- Tim 
1 o3-++Vom 
Q=[ 0 0 1 ... gam fe 


oO 


> e-e@ °§4 


Then, 
W1,k+1 0 1 Gio++-Gir\ /Tik 
Jorri}_| Me |_| O 1 ---Goar} | Ten 
Tk, k+ Tk—1,k 0 0 1 Tp k/ 


But, QT =F Q. Therefore 


Vu,mt+1 = 4mti-p 


the a, being the coefficients of the characteristic polynomial of T. More com- 
monly, it is observed that the characteristic polynomial 


det (AI — T) 


is easily expanded and can be obtained by means of a well known recursion. 


Clearly the selection of the triangular matrix Q in (16) could be made so 
that B itself is lower triangular, and this is the result obtained when c;=—e,, 
C =I, as in the original HESSENBERG method. It amounts to applying ordinary 
GAUSSIAN elimination to V7. This is the method of Lopgic, who, indeed, applies 
it explicitly to the vectors v; as they are developed. The suggestion occurs 
naturally as a device for testing at each stage whether or not the vector just 
obtained is linearly dependent upon the preceding ones. It amounts also to a 
DANILEVSKII sequence of transformations A;,,=L,,,A;L;" with lower triangular 
L;, which occurs in the method of SAIBEL and BERGER (and SCHWARZ). 

The restrictions upon the vectors c; in the HESSENBERG method are quite 
mild, being first linear independence, and, second, that c?b;=0 only when b,=0. 
Hence it is natural to seek a criterion for selecting them. The particular selection 
c;=e,; is fortuitous, and not necessarily suitable for all matrices. LANCczos and 
RUTISHAUSER made the suggestion that, in retrospect, seems entirely natural, 
which was that the c; be chosen in essentially the same manner as the 0;, but 
by using A’ instead of A. Thus one seeks a matrix S, of the same form as T, 
such that 


(20) ATC=CS. 








34 Atston S. HOUSEHOLDER and FRIEDRICH L. BAUER: 


But c; will be selected orthogonal to 0;_,, b;_2,..., whereas 0;,,, dj4,..., will 
be selected orthogonal to c;, from which it follows that the matrix P in (17) is 
diagonal. Hence, by (18) and (20), 


(21) C7AB=PT=S'P, 


and since T is null below the subdiagonal, and S? above the superdiagonal, there- 
fore both are tridiagonal, and a little further analysis shows that, in fact, 


(22) S=T. 


Hence the recursions to be solved for the b; and c; never require more than three 
terms in each, and those for the c; contain the same coefficients as those for 
the 3;. ia 

The method again requires that c?6;-+0 unless either b;=0 or else c,=0. 
RUTISHAUSER has shown that 0, and c, can be so chosen that c? b;=0 only when 
both b;=c;=0, and this only for 7 =m -+-1. Moreover, this will be true of ‘“‘almost 
every” choice of 6, and c,. Unfortunately, there is no assurance in advance 
that such a choice has been made, and still less, that c7b; may not become quite 
small while c; and }; remain relatively large. Should this happen one can, of 
course, start over, but again with no advance assurance of success. For Hermitian 
matrices the choice c, =), implies c;=b;. For semi-definite matrices the LANczos 
method coincides with the method of STIEFEL and HESTENES. 

But it is quite legitimate to select c;=6;, even for a non-Hermitian matrix A, 
in which case c/b;=0 automatically implies c,=b;=0. This suggestion has been 
made by ARNOLDI and by WarGaA (described by SCHACKNOW). Again P in (17) 
is a diagonal with strictly positive diagonal elements. Hence one can write, in 
place of (17), 

(23) BT B =D", 


the matrix being automatically nonsingular since one stops on the appearance 
of the first zero. Evidently, then, BD is orthogonal in the nonderogatory case 
when m =n and B is square. Then (18) can be written 


(24) A(BD) =(BD)(D“TD), 


where D+TD no longer has a unit subdiagonal, but has the more general form 
of the T of (19). In the nonderogatory case (24) can be written 


(25) QTAQ=T', Q=BD, T'=D"TD, 


where 22 is orthogonal, and 7” is of the form (19). 

This in effect shows, and it is otherwise known, that a matrix A can be 
reduced to HESSENBERG form by an orthogonal transformation (25), and one 
might seek to build it up in other ways. In fact, any orthogonal matrix can be 
expressed as a product of plane rotations, and this DANILEvskiI type sequence 
of transformations gives the method proposed by GIvENs. The method is to 
develop a sequence of plane rotations, the typical one being 2;; in the (7, 7)-plane, 
such that in 


QI, A Qo5 





a 


Methods for expanding the characteristic polynomial 


we 
vw 


the element in the (3, 1) position is annihilated; in 
QF, QF, A Qs, Qo, 


the element in the (4, 1) position can be annihilated without thereby disturbing 
the zero already obtained. One continues in this way, ultimately annihilating 
all elements below the subdiagonal, at which time the form T’ is obtained and 
the product of all the 2;; forms 2. Attacked in this way the method requires a 
square rooting for each element annihilated. When the form (24) is used only 
one per column is required. 

In the light of the foregoing analysis a further variant, based on a paper 
by one of us (A. S. HOUSEHOLDER), may be presented that seems to differ slightly 
from all these. Returning to the form (7), consider again the possibility of forming 
an orthogonal matrix W such that 


is upper triangular. Then (7) can be written in the form 
(27) WAWT=T, T=SFS"1, 


where T is subtriangular of form (19) again. 


The matrix W will be constructed as a product of simpler orthogonal matrices, 
but not plane rotations. In fact, they are of the form 


W,=I—2u,0?, wiw,=1, W,'=W,. 
Consider the product Wyv, where 
W, =1—2u,wt 


and let the last »—1 elements of w, be proportional to those of v,, the factor 
of proportionality to be determined, along with the first element. These two 
scalars will be chosen so that W,v, is null except in the first element. To secure 
this, the two scalars must satisfy a pair of simultaneous quadratics which are 
easily solved in terms of two square roots. For details see also a forthcoming 
paper by one of us (F.L. BAUER). At the next step the product W,W1, is re- 
quired to vanish in all but the first two’elements. The process can terminate 
only with a v,,,, that is a linear combination of the preceding ones. As with 
the method of DANILEVSKII, it is unnecessary to form V explicitly. Instead, one 
can make successive transformations of the matrix A. The first, WAW, has 
the effect only of selecting the initial vector v,. The next matrix W, is chosen 
so that WW,AW,W, is null in the first column below the second element, and 
W, itself is null in its first element. If w, is null in its first two elements, W, can 
be selected so that the product WW,W,AW,W,W, retains its zeros in the first 
column, and, in addition, is null in the second column below the third element. 
Eventually, W will be the product of all the W; so formed. 

It is not the purpose here to consider the detailed programming of any of 
the methods here described. It is the purpose to exhibit the fact that all these 
methods rest mathematically upon the formation of a KRYLOV sequence (1), 
where usually e, is taken for v,. But if V is formed explicitly, then the efficacy 

3* 








36 Aston S. HOUSEHOLDER and FRIEDRICH L. BAUER: 


of the sequence depends upon the extent to which components of the proper 
vectors are represented in the vector v, of the sequence, and they will not be well 
represented unless the proper vectors belonging to proper values of small modulus 
are strongly represented in v,, since successive iterations with the matrix A have 
the effect of suppressing these components progressively. This cannot be expected 
from the choice v;=¢,. If these minor axes were not represented at all in 1,, 
this would be an advantage since the sequence would terminate early and one 
would obtain a polynomial divisor of the minimal polynomial. One could then 
find from this the larger proper values and their vectors. But this cannot be 
expected from this choice either. Instead, one can expect that the minor axes 
will be represented to some degree in the early terms, and completely suppressed 
in the later ones to within machine error. Hence numerical instability results. 

However, the choice v, =e, is not necessary. It only provides a slight reduction 
in the number of computations formally required, and a better v, can be found. 
For a positive-definite matrix, a preparatory vector iteration with the matrix 
yE—A, where y is given by a bound for the greatest proper value, will give 
a v, with predominant minor axes. For a normal matrix, y?E —AA™ may be 
used, where y is an upper bound for the moduli of the proper values of A. And, 
besides this, if the proper vectors of A group into symmetric ((x),=(x),—,) 
and antisymmetric ((x),—=—(x),—,,) ones, a symmetric or an antisymmetric 1 
may be used, to obtain the corresponding divisors of the minimal polynomial. 

In any case, it seems to be worth while, because of the optimal condition 
of orthogonal transformations, to obtain the HESSENBERG transform by ortho- 
gonalization of V, or by means of the generalized HESSENBERG method with 
orthogonalization (C=B), or by a sequence of orthogonal similarity trans- 
formations. The latter may be done in the GIVENs way by plane rotations, or 
by using the matrices W;. These methods should show optimal numerical stability. 


References 


ARNOLDI, W. E.: The principle of minimized iterations in the solution of the matrix 
eigenvalue problem. Quart. Appl. Math. 9, 17—29 (1951). 

Bauer, F. L.: Zusammenhange zwischen einigen Iterationsverfahren der linearen 
Algebra. Intern. Koll. iiber Probl. d. Rechentechnik, S. 99—111. Dresden 1955. 

Bauer, F. L.: Beitrage zum Danjelewskij-Verfahren. Intern. Koll. iiber Probl. d. 
Rechentechnik, S. 133—139. Dresden 1955. 

Bauer, F. L.: Sequential reduction to tridiagonal form. To appear in J. Soc. Indust. 
Appl. Math. 

DANILEvskI!, A.: O Gislennom reSenii vekovogo uravneniya. Mat. Sbornik 2 (44), 
169—171 (1937). 

FappEEV, D. K., und I. S. Sominskil: Sbornik zadaé po vyssel algebre. Moskow- 
Leningrad 1949. 

FappEEVA, V.N.: Vyéislitel’nye metody linefnor algebry. Moskow-Leningrad 1950. 

FRAME, J. S.: A simple recursion formula for inverting a matrix (abstract). Bull. 
Am. Math. Soc. 55, 1045 (1949). 

Frazer, R. A., W. J. Duncan and A. R.Cotiar: Elementary matrices and some 
applications to dynamics and differential equations. New York 1946. 

Givens, J. W.: Numerical computation of the characteristic values of a real sym- 
metric matrix. Oak Ridge National Laboratory, ORNL-1574. 1954. 

Givens, J. W.: The characteristic value-vector problem. J. Assoc. Comp-Mach 4, 


298 — 307 (1957). 





Methods for expanding the characteristic polynomial 37 


HEsSENBERG, K.: Auflésung linearer Eigenwertaufgaben mit Hilfe der Hamilton- 
Cayleyschen Gleichung. Diss. T. H. Darmstadt 1941. 

HEsTENES, MaGnus R., and Epuarp STIEFEL: Methods of conjugate gradients for 
solving linear systems. J. National Bureau of Standards 49, 409—436 (1952). 

Hiopovsk, I. N.: K teorii ob3éego slutéaya preobrazovaniya vekovogo uravneniya 
metodor Akademika A. N. Krylova. Izv. Akad. Nauk, Otd. m.e.n. 1933, 1077— 
1102. 

Horst, Pau: A method of determining the coefficients of a characteristic equation. 
Ann. Math. Stat. 6, 83—84 (1935). 

HOUvuSEHOLDER, A. S.: Unitary triangularization of a nonsymmetric matrix. J. Assoc. 
Comp. Mach. 5, 339—342 (1958). 

Kry.ov, A. N.: O éislennom regenii uravneniya, kotorym v techniéeskih voprosah 
opredelyayutsya éastoty malyh kolebanii material’nyh sistem. Izv. Akad. Nauk 
SSSR., Otd. m.e.n. 1931, 491 — 539. 

Lanczos, CoRNELIus: An iteration method for the solution of the eigenvalue problem 
of linear differential and integral operators. J. Research, National Bureau of 
Standards 45, 255—282 (1950). 

LEVERRIER, U. J. J.: Sur les variations séculaires des éléments des orbites pour les 
sept planétes principales. J. de Math. (1) 5, 230 (1840). 

Lopgic, A. M.: CislennyY metod naho%deniya sobstvennyh znaéenil i sobstvennyh 
ploskostei lineYnogo operatora. Trud. Sem. Vekt. Tenz. An. c ih Pril. k Geom. 
Meh. i Fiz. 7, 233—259 (1949). 

Luzin, N. N.: O metode Akademika A. N. Krylova sostavleniya vekovogo uravneniya. 
Izv. Akad. Nauk SSSR., Otd. m.e.n. 1931, 903—958. 

Luzin, N.N.: O nekotoryh svoistvah peremeSéayuséego mnoZzitelva v metode Aka- 
demika A. N. Krylova. Izv. Akad. Nauk SSSR., Otd. m.e.n. 1932, 595—638 
735—762, 1065—1102. 

RUTISHAUSER, HEINz: Beitrage zur Kenntnis des Biorthogonalisierungsalgorithmus 
von C. Lanczos. Z. angew. Math. Phys. 4, 35—56 (1953). 

SAIBEL, EDwarpD, and W. J. BERGER: On finding the characteristic equation of a 
square matrix. M.T.A.C. 7, 228—236 (1953). 

SAMUELSON, P. A.: A method of determining explicitly the coefficients of the cha- 

_racteristic equation. Ann. Math. Stat. 13, 424—429 (1942). 

ScHACKNOW, ARNOLD: Solution of (I—qK)z=y” on the IBM Type 650 Computer. 
Republic Aviation Corp. Internal Memorandum. 1956. 

ScHWARzZ, Hans Rupo tr: Critére de stabilité pour les systémes a4 coefficients constants. 
Comptes Rend. 241, 15—16 (1955). 

ScHWARZ, Hans Rupotr: Ein Verfahren zur Stabilitatsfrage bei Matrizen-Eigenwert- 
problemen. Z. angew. Math. Phys. 7, 473— 500 (1956). 

SouRIAU, JEAN-MsRiE: Une méthode pour la décomposition spectrale et l’inversion 
des matrices. Comptes Rend. 227, 1010—1011 (1948). 

STIEFEL, Epuarp: Uber einige Methoden der Relaxationsrechnung. Z. angew. Math. 
Phys. 3, 1—33 (1952). 

TURNBULL, H. W., and A.C. AITKEN: An introduction to the theory of canonical 
matrices. pp. xiii+ 192. London and Glasgow: Blackie and Son Ltd. 1930. 
Uncer, He1nz: Uber direkte Verfahren bei Matrizeneigenwertproblemen. Wiss. Z. 

Techn. Hochsch. Dresden 2, 449—456 (1952). 

UncGeEr, HeE1Nnz: Zur Praxis der Biorthonormierung von Eigen- und Hauptvektoren. 
Z. angew. Math. Mech. 33, 319—331 (1953). 

WEGNER, U.: Bemerkungen zur Matrizentheorie. Z. angew. Math. Med. 33, 262—264 

1953). 
Oak Ridge National Laboratory * 
and 
University of Mainz 


(Received September 8, 1958) 





* Operated by Union Carbide Corporation for U.S. Atomic Energy Commission. 








Numerische Mathematik Bd. 1, S. 38—40 (1959) 


Orthogonal polynomials in several variables 
By fe 
MORRIS WEISFELD* 


The method of A. S. HOUSEHOLDER [2] and E. STIEFEL [3] for orthogonalizing 
real polynomials in one variable can be generalized to a method for orthogonalizing 
real polynomials in several variables. 

Let D be a set bearing a non-negative measure 4. Given two mappings / 
and g of D into the reals, their scalar product (f, g) is defined to be [ fg du where 

D 


(fg) (x) =f (x) g(x) for all x€ D. A set of real-valued mappings of D is orthogonal 
if and only if (/, g) =0 for each f and g, f=+g in the set, and independent if and 
only if no non-trivial finite linear combination of elements in the set is zero 
almost everywhere. Let ® ={q,|j € 7} be an ordered independent square-inte- 
grable set of real-valued mappings of D. An orthogonalization of ® is an ordered 
orthogonal set ¥ = {yp,|7 € J} of real-valued mappings of D such that for each 
7€ J, yp; can be written as a finite linear combination of elements of the set 
(al REJ, Ri). 

We consider the case of D being a subset of R”, the Cartesian product of 1 
real lines, J being the set of m-tuples of non-negative integers and @ the set of 
monomials in the coordinate variables; that is, if 7 =(j,,...,7,,) and %,..., x, 
represent coordinates, y;=x}x}... x". Define o(j)=7,+---+7,- Order J as 
follows: i<j if and only if o(7)<o(j) or o(7) =o(j) and, for some k&, 7,+---- 
+7,<9,+-:-+7,. This induces an order in @. 


Define: 
k=G\7EJ and o(j) <4}, 
Jan = U\7E€J,0(/) =a and ja, = °** =), =O} Rk =O,...."—1; 2=0,1,...; 


Jan = GFE J, 0 (7) = 4}. 
The y,; are defined as follows: 
(1) Yoo,...,0) = Yo= 1. 


For 7 >0, the d and k such that 7 € J, and 7 ¢ J,,_, are uniquely determined. 
Define for 7>0 


(2) 7 = (Jase++sde— 1s Degas e++dn)> 
Then define 
(3) Yj = Xp YF a p OF” Yan 


where the sum is over all m<j such that o(j) —o(m)<2 and 


o> Ym) 





* Now at Shell Development Company, Emeryville 8, California. 











Orthogonal polynomials in several variables 39 


Since each y; can be written in the form 


na 
the independence of @ insures that (y,, y,;)--0 and that the mapping 7— y, 
induces an order in y. The choice of a insures the orthogonality of the set 
{y,|" J, wSj and o(j) —o(n) <2}. 

We claim: Let m€ f,,. If izk then x;y,, is a linear combination of elements 
of {y\7E Tv Jars ah: If t<k then x;y,, is a linear combination of elements of 
{y,|7 € Sav SJa+s,1}- 

To establish the claim suppose =k. Let n=(my,..., m1, m;+1, M41, 
.++,M,). Then #=m and by (3) 4; Yn= YntdD oh Yp- Since p<n and # € Jasii» 
the first assertion is proved. 

Now suppose i<k. The assertion is vacuously true for 7 = (0, ..., 0). Suppose 
we have proved it for alla<m. There isanrSk such that m€ J,,and m4 Jy ,-1- 
If y<7, we use the first assertion. Hence assume +<7. By (3) we have 


(5) Xi Ym = Xj % Yin — Di Up Xi Yn 
The terms x;y, are, by the induction hypothesis, a linear combination of elements 
ef {y,|) © Lv Jazi,7}- *:pa is, by the induction hypothesis a linear combination 
of {y,| /€ fa+- Ja} and x, times elements of the latter set are by the first 
assertion linear combinations of elements of ty,l7 € fav Jass,,}- This proves the 
second assertion. 

Suppose we have shown {y,| € J, <j} is orthogonal. To show y; is ortho- 
gonal to all the elements of this set it remains to show (y;, y,) =0 for <7 such 
that a(7) —o(n)>2. We have by (3) 


(y;, Yn) a (Xp YF ’ Yn) mace’ > a (Ym > Yn) ? 
Since o(m) == a(n) and m<7, (y», Y,) =O for all terms in the sum, so that 


(Yj Pn) = (Xe VF» Yn) = (Vir Xe Pn) - 

Since o(/) =d—1 and x,y, is a linear combination of elements of {y,|7 € Jz_9}, 
this scalar product is also zero. Hence {y,|€ J, <7} is orthogonal. 

It is clear that each g, can be written as a linear combination of the elements 
of {y,,|<7}. Hence our construction yields an orthogonalization of ®. 

A useful observation is the following: Suppose D is a product measure space 
D, xD. endowed with measure m,Xpg. Let {f,)i€ I} and {g,|7E€ J} be ordered 
independent sets of mappings of D, and Dg respectively into the reals, and let 
{h;|i € I} and {k,|7 € J} be their respective orthogonalizations. Let {f; g;| (1,7) €1 XJ} 
be a set of mappings of D into the reals, ordered by f;.g;,<};,g8;, if and only if 
£j,< 8), OY &;,= 8, and f;<f;,. Then the last set of mappings is independent, and 
the set {h,k,|(t,7) € Ix J} is an orthogonalization of it. 

For suppose >)c;;/;g;=0, ¢;,4:0. Choose y€D, so that g,(y)=-0. Then 
>¢;; g;(v)f;=0, violating the independence of {f;|i € J}. Furthermore, 


(A, Rj, Mi, Rj.) a be Minds J hi Rj,4pg=O if (t1,41) + (2572). 


0G? Ge ja) 
Clearly /;g; can be elie asa ies combination of elements of 


{h,k,|(r,s)EIXxJ, (r,s) S (73. 








40 Morris WEISFELD: Orthogonal polynomials in several variables 


References 


[1] ForsyTHE, G. E.: Generation and use of orthogonal polynomials for data-fitting 
with a digital computer. J. Soc. Ind. and Appl. Math. 5, No. 2,-74—88 (1957). 

{[2] HousEHOLDER, A. S.: Principles of numerical analysis, p.221. New York- 
Toronto-London: McGraw-Hill 1953. 274 pp. 

[3] St1EFEL, E. L.: Kernel polynomials in linear algebra and their numerical applica- 
tions, pp. 1—22 of Further contributions to the solution of simultaneous linear 
equations and the deter mination of eigen values, National Bureau of Standards, 
Applied Math. Ser. 49, Washington, Government Printing Office, 1958. 


San Francisco, California 


(Received May 29, 1958) 








Numerische Mathematik Bd. 1, S. 41—60 (1959) 


Report on the Algorithmic Language ALGOL 
by 
the ACM Committee on Programming Languages and the 
GAMM Committee on Programming 


edited by 
A. J. PERLIS and K. SAMELSON 


Editors’ Note. In the interest of immediate circulation of the results of the ACM- 
GAMM committee work on an algebraic programming language, this preliminary 
report is presented. The language described naturally enough represents a com- 
promise — but one based more on differences of taste than on content or fundamental 
ideas. Even so, it provides a natural and simple medium for the expression of a large 
class of algorithms. This report has not been thoroughly examined for errors and 
inconsistencies. It is anticipated that the committee will prepare a more complete 
description of the language for later publication. 

For all scientific purposes reproduction of this report is explicitly permitted 
without any charge. 


Part 1. Introduction 


In 1955, as a result of the Darmstadt meeting on electronic computers, the 
GAMM (Gesellschaft fiir angewandte Mathemathik und Mechanik), Germany, set 
up a committee on programming (ProgrammierungsausschuB). Later a sub- 
committee began to work on formula translation and on the construction of a 
translator, and a considerable amount of work was done in this direction. 


A conference attended by representatives of the USE, SHARE, and DUO 
organizations and the ACM (Association for Computing Machinery) was held in 
Los Angeles on May 9 and 10, 1957 for the purpose of examining ways and means 
for facilitating exchange of all types of computing information. Among other 
things, these conferees felt that a single universal computer language would be 
very desirable. Indeed, the successful exchange of programs within various 
organizations such as USE and SHARE had proved to be very valuable to 
computer installations. They accordingly recommended that the ACM appoint 
a committee to study and recommend action toward a universal programming 
language. 

By October 1957 the GAMM group, aware of the existence of many programm- 
ing languages, concluded that rather than present still another formula language, 
an effort should be made toward unification. Consequently, on October 19, 1957, 
a letter was written to Prof. JoHN W. Carr III, president of the ACM. The letter 
suggested that a joint conference of representatives of the GAMM and ACM be 
held in order to fix upo a common formula language in the form of a recommen- 
dation. 








42 A. J. PERLis and K, SAMELSON: 


An ACM Ad-Hoc committee was then established by Dr. Carr, which re- 
presented computer users, computer manufacturers, and universities. This 
committee held three meetings starting on January 24, 1958 and discussed many 
technical details of programming language. The language that evolved from 
these meetings was oriented more towards problem language than towards 
computer language and was based on several existing programming systems. On 
April 18, 1958 the committee appointed a sub-committee to prepare a report 
giving the technical specifications of a proposed language. 

A comparison of the ACM committee proposal with a similar proposal prepared 
by the GAMM group (presented at the above-mentioned ACM-Ad-Hoc committee 
meeting of April 18, 1958) indicated many common features. Indeed, the GAMM 
group had planned on its own initiative to use English words wherever needed. 
The GAMM proposal represented a great deal of work in its planning and the 
proposed language was expected to find wide acceptance. On the other hand 
the ACM proposal was based on experience with several successful, working problem 
oriented languages. 

Both the GAMM and ACM committees felt that because of the similarities 
of their proposals there was an excellent opportunity for arriving at a unified 
language. They felt that a joint working session would be very profitable and 
accordingly arranged for a conference in Switzerland to be attended by four 
members from the GAMM group and four members from the ACM committee. 
The meeting was held in Zurich, Switzerland, from May 27 to June 2, 1958 and 
attended by F. L. BAvER, H. BoTTENBRUCH, H. RUTISHAUSER and K. SAMEL- 
SON from the GAMM committee and by J. Backus, C. Katz, A. J. PERLIs, and 
J. H. WEGSTEIN for the ACM Committee *. 

It was agreed that the contents of the two proposals should form the agenda 
of the meeting, and the following objectives were agreed upon: 

I. The new language should be as close as possible to standard mathematical 
notation and be readable with little further explanation. 

II. It should be possible to use it for the description of computing processes 
in publications. 

III. The new language should be mechanically translatable into machine 
programs. 

There are certain differences between the language used in publications 
and a language directly usable by a computer. Indeed, there are many differ- 
ences between the sets of characters usable by various computers. Therefore, it 
was decided to focus attention on three different levels of language, namely a 
Reference Language, a Publication Language and several Hardware Represen- 
tations. 

Reference Language 


1. It is the working language of the committee. 


2. It is the defining language. 
3. It has only one unique set of characters. 





* In addition to the members of the conference, the following people participated 
in the preliminary work of these committees: GAMM: P.Graezrr, P. LAucutt, M. Paut, 
F,. Penztin. — ACM: D. ArpvEN, J. McCartny, R. Ricu, R. Goopman, W. Tur- 
NANSKI, S. Rosen, P. DesiLets, S. Gorn, H. Huskey, A. ORDEN, D. C. Evans. 





Report on the Algorithmic Language ALGOL 43 


4+. The characters are determined by ease of mutual understanding and not 
by any computer limitations, coders notation, or pure mathematical notation. 

5. It is the basic reference and guide for compiler builders. 

6. It is the guide for all hardware representations. 

7. It will not normally be used stating problems. 

8. It is the guide for transliterating from publication language to any locally 
appropriate hardware representations. 

9. The main publications of the common language itself will use the reference 
representation. 

Publication Language (see Part IIIc) 


1. The description of this language is in the form of permissible variations of 
the reference language (e.g., subscripts, spaces, exponents, Greek letters) according 
to usage of printing and handwriting. 

2. It is used for stating and communicating problems. 

3. The characters to be used may be different in different countries but uni- 
vocal correspondence with reference representation must be secured. 


Hardware Representations 


1. Each one of these is a condensation of the reference language enforced by 
the limited number of characters on standard input equipment. 

2. Each one of these uses the character set of a particular computer and is the 
language accepted by a translater for that computer. 

3. Each one of these must be accompanied by a special set of rules for trans- 
literating from Publication language. 

Acknowledgements. The members of the conference wish to express their apprecia- 
tion to the Association for Computing Machinery, the ‘‘ Deutsche Forschungsgemein- 
schaft’’, and to the ‘Eidgenéssische Technische Hochschule Ziirich’’, for substantial 
help in making this conference and resultant report possible. 


Part II. Description of the reference language 
1. Structure of the language 


As stated in the introduction, the algorithmic language has three different 
kinds of representation — reference, hardware, and publication — and the 
development described in the sequel is in terms of the reference representation. 
This means that all objects defined within the language are represented by a 
given set of symbols — and it is only in the choice of symbols that the other two 
representations may differ. Structure and content must be the same for all 
representations. 

The purpose of the algorithmic language is to describe computational processes. 
The basic concept used for the description of calculating rules is the well known 
arithmetic expression containing as constituents numbers, variables, and func- 
tions. From such expressions are compounded, by applying rules of arithmetic 
composition, selfcontained units of the language — explicit formulae — called 
arithmetic statements. 

To show the flow of larger computational processes, certain nonarithmetic 
statements are added which may describe e.g., alternatives, or recursive repetitions 
of computing statements. 











44 A. J. PERLIs and K. SAMELSON: 


Statements may be supported by declarations which are not themselves 
computing rules, but inform the translator of certain properties of objectsappearing 
in statements, such as the class of numbers taken on as values by a variable, the 
dimension of an array of numbers or even the set of rules defining a function. 

Sequences of statements and declarations when appropriately combined, are 
called programs. However, whereas complete and rigid formal rules for con- 
structing translatable statements are described in the following, no such rules 
can be given in the case of programs. Consequently, the notion of program must 
be considered to be informal and intuitive, and the question whether a sequence 
of statements may be called a program should be decided on the basis of the 
operational meaning of the sequence. 

In the sequel explicit rules — and associated interpretations — will be given 
describing the syntax of the language. Any sequence of symbols to which these 
rules do not assign a specific interpretation will be considered to be undefined. 
Specific translators may give such sequences different interpretations. 


2. Basic Symbols 


The reference language is built up from the basic symbols listed in Part IIIa. 
These are 


1. Letters 4 (the standard alphabet of small and capital letters) 
2. Figures § (arabic numerals 0, ..., 9) 
3. Delimiters d consisting of 


a) operators w: 


arithmetic operators +-—x/ 

relational operators <sSs=2> + 
logical operators 1VA= 

sequential operators goto do return stop 








for if or if either or if 








b) separators 6: , os fF -_— =) ep, 
c) brackets B: () £] ty 
d) declarators ¢: procedure array 

switch 





type comment 


Of these symbols, letters do not have individual meaning. Figures and deli- 
miters have a fixed meaning which for the most part is obvious, or else will be 
given at the appropriate place in the sequel. 

Strings of letters and figures enclosed by delimiters represent new entities. 
However, only two types of such strings are admissible: 

1. Strings consisting of figures § only represent the (positive) integers G 
(including 0) with the conventional meaning. 

2. Strings beginning with a letter 4 followed by arbitrary letters 4 and/or 
figures § are called identifiers. 

They have no inherent meaning, but serve for identifying purposes only. 








Report on the Algorithmic Language ALGOL 45 


3. Expressions 


Arithmetic and logical processes (in the most general sense) which the algorith- 
mic language is primarily intended to describe, are given by arithmetic and logical 
expressions, respectively. Constituents of these expressions, except for certain 
delimiters, are numbers, variables, elementary arithmetic operators and relations, 
and other operators called functions. Since the description of both variables 
and functions may contain expressions, the definition of expressions, and their 
constituents, is necessarily recursive. 

The following are the units from which expressions are constructed. 


i) (positive) Numbers N. Form: N~G.G,,+G 
where each G is an integer as defined above. 

G .G is a decimal number of conventional form. The scale factor ,)5 -+- G is 
the power of ten given by +G. The following constituents of a number may be 
omitted in any occurrence: 


The fractional part . 00 -:: 0 of integer decimal numbers; 
the integer J in front of a scale factor; 

the + sign in the scale factor; 

the scale factor j) + 0. 


Examples: 4711 
137.06 
2.9997 110 
10 — 12 
339—12 


ii) Simple Variables V are designations for arbitrary scalar quantities, e.g., 
numbers as in elementary arithmetic. 


Form: V~I 
where Ff is an identifier as defined above. 


Examples: a 
x 11 
PSI 2 
ALPHA 


iii) Subscripted Variables V designate quantities which are components of 
multidimensional arrays. 


Form: V~I[(tj 


where | ~ E, E, **: , E is a list of arithmetic expressions as defined below. Each 
expression E occupies one subscript position of the subscripted variable, and is 
called a subscript. The complete list of subscripts is enclosed in the subscript 
brackets [ ]. 

The array component referred to by a subscripted variable is specified by the 
actual numerical value of its subscripts (cf. arithmetic expressions). 

Subscripts, however, are intrinsically integer valued, and whenever the value 
of a subscript expression is not integral, it is replaced by the nearest integer (in 
the sense of proper round off). 











46 A. J. PERLIs and K. SAMELSON: 


Variables (both simple and subscripted ones) designate arbitrary real numbers 
unless otherwise specified. However, certain declarations (cf. type declarations) 
may specify them to be of a special type, e.g., antegral, or Boolean. Boolean (or 
logical) variables may assume only the two values ‘“‘true’’ and “‘false”’. 


iv) Functions F represent single numbers (function values), which result 
through the application of given sets of rules to fixed sets of parameters. 


Form: F~I(P,P,...,P) 


where J is an identifier, and P, P, -:: , P is the ordered list of actual parameters 
specifying the parameter values for which the function is to be evaluated. A 
syntactic definition of parameters is given in the sections on function declarations 
and procedure declarations. If the function is defined by a function declaration, the 
parameters employed in any use of the function are expressions compatible with 
the type of variables contained in the corresponding parameter positions in the 
function declaration heading (cf. function declaration). Admissible parameters 
for functions defined by procedure declarations are the same as admissible input 
parameters of procedures as listed in the section on procedure statements. 

Identifiers designating functions, just as in the case of variables, may be 
chosen according to taste. However, certain identifiers should be reserved for 
the standard functions of analysis. This reserved list should contain: 


abs (E) for the modulus (absolute value) of the value of the expression E 
sign (E) for the sign of the value of E 

entier (E) for the largest integer not greater than the value of E 

sqrt(E) for the square root of the value of E 

sin (E) for the sine of the value of E 


and so on according to common mathematical notation. 


v) Arithmetic expressions E are defined as follows: 
A number, a variable (other than Boolean), or a function is an expression. 


Form: E~N 
~VvV 
~F 


If EZ, and E, are expressions, the first of which are neither ‘‘ +’ nor “—’’, 
then the following are expressions: 
4. E~+E, 
~—E, 
~E,+E, 
~E, —E, 
~E, x E, 
~ E/E, 
~E,tE,) 
~ (E,) 
The operators +, —, X,/ appearing in 1 through 6 have the conventional meaning. 


The parentheses ¢{ used in 7 denote exponentation, where the leading ex- 
pression is the base and the expression enclosed in parentheses is the exponent. 


PMP SKS YP 














Report on the Algorithmic Language ALGOL 47 


Examples: 242tn hy means 2°”) 
242 )tny means (2?)" 


The proper interpretation of expressions can always be arranged by appro- 
priate positioning of parentheses. 

An arithmetic expression is a rule for computing one real number by 
executing the indicated arithmetic operations on the actual numerical values 
of the constituents of the expression. This value is obvious in the case of 
numbers N. For variables V, it is the current value (assigned last in the 
dynamic sense), and for functions F it is the value arising from the computing 
rules defining the function (cf. function declaration) when applied to the current 
values of the function parameters given in the expression. 

The sequence of operations within one expression is generally from left to 
right, with the following additional rules: 

a) parentheses are evaluated separately 

b) for operators, the conventional rule of precedence applies: 

first: at ee 
second: + — 


In order to avoid misunderstandings, redundant parentheses should be used 
to express, for example, A in the form (axb)/c or (a/c) xb rather than by 
axb/c, or a/c Xb respectively, and to avoid constructions such as a/b/c. 


Examples: A 
Alpha 
Degree 
A [1,1] 
Aljt+h—2,j—2] 
A [mu(s}] 
aX sin (omega x t) 
0.5 x a[N x(N—1)/2, 0] 


vi) Boolean expressions B are defined analogously to arithmetic expressions: 
a) A truth value, a variable (Boolean by declaration), or a function (Boolean 
by declaration) is an expression. 


Form: B~O (the truth value “false’’) 
~1 (the truth value “true’’) 
~V 
~F 


b) If EZ, and E, are arithmetic expressions then the following arithmetic 
relations are expressions: 











48 A. J. PERLIs and K. SAMELSON: 


Such expressions take on the (current) value ‘‘true’’ whenever the cor- 
responding relation is satisfied for the expressions involved, otherwise “‘false’’. 


c) If B, and B, are expressions, the following are expressions: 
B~7B, 
~B,VB, 
~B,AB, 
~B, = B, 
~ (B,) 


The operators 1, V, A, = have the interpretations “not”, “or”, “‘and”’, 
and ‘‘equivalent”’. 

Interpretation of the binary operators will be from left to right. The scope of 
“4"" is the first expression to its right. Any other desired precedence must be 
indicated by the use of parentheses. 

Examples: (x = 0) 

(X > 0) V (y> 0) 
(pb Aq) V(x + 9) 


4. Statements X 
Closed and selfcontained rules of operations are called Statements 2. They are 
defined recursively in the following way: 
a) Basic statements 2 are those described in this section. 
b) Strings of one or more statements* may be combined into a single (com- 
pound) statement by enclosing them within the “‘statement parentheses’’ begin 


and end. Single statements are separated by the statement separator “;”’. 


Form: ZX ~ begin X; X;°**; Bend 





c) A statement may be made identifiable by attaching to it a label L, which 
is an identifier Z, or an integer G (with the meaning of identifier). The label 
precedes the attached statement being labeled, and is separated from it by the 
separator colon (:). Label and statement together constitute a statement called 
“labeled statement”’. 


Form: Z~L:z 


A labeled statement may not itself be labeled. In the case of labeled compound 
statements, the closing parentheses end may be followed by the statement label 


(followed by the statement separator) in order to indicate the range of the com- 
pound statement: 


Form: X~L: begin X; X;°** ; Zend L; 





i) Assignment statements serve for assigning the value of an expression to a 
variable. 


Form i): Z~V:=E. 





* Declarations which may be interspersed between statements have no operational 
(dynamic) meaning. Therefore, they have no significance in the definition of compound 
statements. 








Report on the Algorithmic Language ALGOL 49 

If the expression on the right hand side of the assignment delimiter := is 
arithmetical, the variable V on the left hand side must also be numerical, i.e., 
it must not be Boolean. 

Generally, the arithmetic type of the expression E is determined by the con- 
stituents and operations of the expression E. However V may be declared to be 
of a special type provided this declaration is compatible with the possible values 
of the expression E. 


Form ii): z~V:=B 


If the expression on the right hand side of the assignment statement is Boolean, 
V may be any variable. This means that the truth values ‘“‘true’’, and “‘false”’ 
of the Boolean expression may be interpreted arithmetically as integers ‘“‘J’’ and 
“0”, which may then be assigned to a numerical variable. 


ii) ‘Go to’ statements. Normally, the sequence of operations (described by the 
statement of a program) coincides with the physical sequence of statements. This 
normal sequence of execution may be interrupted by the use of go ¢o statements. 


Form: z~gotoD 


D is a designational expression specifying the label of the statement next to be 
executed. It is either a label E or a switch variable I [E] (cf. switch declaration), 
where J is an identifier and Ea subscript expression. In the latter case, the numeri- 
cal value of E (the value of the subscript) is an ordinal which identifies the com- 
ponent of the switch I (named by declaration). This element which is again a 
designational expression specifies the label to be used in the go to statement. 
This label determination is obviously a recursive process, since the elements of 
the switch may again be switch variables. 


Examples: go to hell 
go to exit [((it 2) —7 4244+ 0/2] 
"where exit refers to the declaration 
switch exit := [D,, D,,°** , D,,] 





iii) ‘If’ Statements. The execution of a statement may be made to depend 
upon a certain condition which is imposed by preceding the statement in question 
by an 7f statement. 

Form: z~i/B 
where B is a Boolean expression. 

If the value of B is ‘“‘true’’, the statement following the 7/ statement will be 
executed. Otherwise, it will be bypassed, and operation will be resumed with 
the next statement following. 

Example: In the sequence of statements 
if (a>O0O); 
if (a<0O); 
if (a=0); goto bed 


7 89 
I 





one and only one of the three statements rightmost in each line will be executed. 








50 A. J. PERLIs and K. SAMELSON: 


iv) ‘For’ statements. Recursive processes may be initiated by use of a for 
statement, which causes the following statement to be executed several times, once 
for each of a series of values assigned to the recursing variable contained in the 
for statement. 


Form: Z~ a) for V:=I 
b) for V:=E, (E,) E,,,°*', E;,(E,,) E. 


ek 


where I is a list of k expressions E,, E,, ...., E,; and E,,, E,,, E,,are expressions. 
In Form a) the intent is to assign to Vin succession the value of each expression 
of the list (expressions taken in order of listing) and the statement following the 
for statement is executed immediately following each such assignment. 

In Form b) each group of expressions E; (E,) E, determines an arithmetic 
progression. The value of E; is the initial value, E, gives the value of the increment 
(step), and E, determines the end value which is the last term of the progression 
contained in the interval [E;, E,]. The intent is to assign to V each value of 
every progression (these again taken in the order of listing from left to right), 
and the statement following the for statement is executed immediately follow- 
ing each such assignment. 

The effect of a for statement may be precisely described in terms of ‘‘more 
elementary” statement forms. Thus the form (a) is precisely equivalent to 


V:=E,;2; V:=E,; 2; -° Vie E,; = 
where 2 is the statement following the for statement. 
The form (b) is precisely equivalent to 


V:=E,;L,:2*; V:=E,,+E,; if (VSE,)**; goto L,; 


V:=E,;1,:2; V:=E,4+E,; if (V<E,); goto Ly; 


%e? 


where Z is the statement following the for statement. 





Examples: a) for I :=1(1)n; p:=p~PxXy+A [I] 
b) for a:=1,3,5,9.76,°*:, — 13.75; 
begin ———-—--—-— 
—-—-—-—-— end 


v) Alternative statements. An alternative statement is one which has the 
effect of selecting execution for one from a set of given statements in accordance 
with certain conditions which exist when the statement is encountered. 


Form: if either B,; X,; orif B,;...; orif B,; 2; end 





where 2; is any statement other than a quantifier, i.e., if, for, or or if, and B; is 
any Boolean expression. -_— ple 





* If L is a labeled statement L, is that label. If not the effect is as though it 
had a (unique) label L,. 
** This relational form obtains if the progression is increasing; if decreasing, the 
relation = is understood to be employed. 





Report on the Algorithmic Language ALGOL 51 


The effect of an alternative statement may be precisely described in terms of 
“more elementary’’ statement forms. Thus the above form is precisely equi- 
valent to the sequence of statements: 


if B,; begin 2; go to next end ; of B,; begin X,; go to next end ; “5 af B,; 2, where 
“next” is the label of the statement following ‘the alternative statement. 

Example: tf either (a> 0);y:=a+2; orif (a<0); :=al2; orif(a=0); 
y :=0.57 end. uw i fi 





vi) ‘Do’ Statements. A statement, or string of statements, once written down, 
may be entered again (in the sense of copying) in any place of the program by 
employing a do statement which during copying permits substitution for certain 
constituents of the statement reused. 


Form: z2~doL,, L,(S.—>1,...,S..-1) 


where EL, and L, are labels, the S_, are strings of symbols not containing the 
separator — and the J are identifiers, or labels, and the list enclosed by paren- 
theses is a substitution list. 

The do statement operates on the string of statements from, and including, 
the one labeled L, through the one labeled L,, which statements constitute the 
range of the do statement. If LZ, is equal to Lg, i.e., if the range is just the one 
statement Z,, the characters “, L,’’ may be omitted. 

The do statement causes itself to be replaced by a copy of the string of state- 
ments constituting its range. However, in this copy all identifiers or labels, 
listed on the righthand side of a separator “‘—>”’ in the substitution list of the do 
statement, (and which are utilized in these statements) are replaced by the 
corresponding strings of symbols S_, on the left hand side of the separators ‘“‘—> 
These strings S_, may be chosen freely with the one restriction that the sub- 
stitutions produce formally correct statements in the copy*. 

Whenever a do statement contains in its range another do statement, the 
copying, and substituting process for this second innermost do will be executed 
first. 

Therefore the (actual) copy induced from a do statement never contains a 
do statement. ; 

Declarations within the range of a do statement are not reproduced in the 


copy 
Examples: do 5,12 (x{t]—> yy, black label red label, -: ,f (x, vy) g) 
do 12 A, ABC (xt 2) + 3/y—A,°°") 


The range of a do statement should contain complete statements only i.e., if 
the begin (end) delimiter of a compound statement lies in the range of the do, then 





so should the matching end (begin). If this rule is not complied with the result 
of the do statement may not be the one desired. 





* Thus, in the copy produced any designational expression whose range is a 
statement within the range of the do statement must be transformed so that its range 
refers to the copy produced. 

Numer. Math. Bd. 1 4a 








52 A. J. Pertis and K. SAMELSON: 


vii) Stop statements. Stop is a delimiter which indicates an operational 
(dynamic) end of the program containing it. Operationally, it has no successor 
statement. 

Form: Zz ~ stop 


viii) Return statements. Return is a delimiter which indicates an operational 
end of a procedure. It may appear only in a procedure declaration (cf. procedure 
declaration). 

Form: 2 ~ return 





ix) Procedure statements. A procedure statement serves to initiate (call for) 
the execution of a procedure, that is, a closed, selfcontained process with a fixed 
ordered set of input and output parameters, permanently defined by a procedure 
declaration. (cf. procedure declaration) 


Form: Zw I (P,, P;,°°:, P;) =: (Pe, Pe,'** » Pe) 


Here J is an identifier which is the name of some procedure i.e., it appears in the 
heading of some procedure declaration (cf. procedure declaration), P;, P;, °**, P; 
is the ordered list of actual input parameters specifying the input quantities to 
be processed by the procedure. 

The list of actual output parameters Py, Py, ..., Po, specifies the variables 
to which the results of the procedure will be assigned, and alternate exits if any. 
The procedure declaration defining the procedure called contains in its heading 
a string of symbols identical in form to the procedure statement, and the formal 
parameters occupying input and output parameter positions there give complete 
information concerning the admissibility of parameters employed in any procedure 
call shown by the following replacement rules: 


formal parameters in procedure admissible parameters in procedure 
declaration statement 

input parameters 
single identifier (formal variable) any expression (compatible with the 


type of the formal variable) 


array, i.e., subscripted variable with array with m (= k) parameter posi- 


k (= 1) empty parameter positions tions k of which are empty 

function with k empty parameter function with (= k) parameter posi- 

positions tions k of which are empty 

procedure with k empty parameter procedure with k empty parameter 

positions positions 

parameter occurring in a procedure every string of symbols S, which 

(added as a primitive to the language)* does not contain the symbol “,’’ 
(comma) 





* Within a program certain procedures may be called which are themselves not 
defined by procedure declarations in the program, e.g., input — output procedures. 
These procedures may require as parameters quantities outside the language, e.g., a 
string of characters providing input — output format information. 








Report on the Algorithmic Language ALGOL 53 


output parameters 
single identifier (formal variable) simple or subscripted variable 


array (as above for input parameters) array (as above for input parameters) 
(formal) label label 


If a parameter is at the same time an input and output parameter this para- 
meter must obviously meet the requirements of both input and output parameters. 

Within a program, a procedure statement causes execution of the procedure 
called by the statement. The execution, however, is effected as though all formal 
parameters listed in the procedure declaration heading were replaced, throughout 
the procedure, by the actual parameters listed, in the corresponding position, in 
the procedure statement. 

This replacement may be considered to be a replacement of every occurence 
within the procedure of the symbols, or sets of symbols, listed as formal para- 
meters, by the symbols, or sets of symbols, listed as actual parameters in the 
corresponding positions of the procedure statement, after enclosing in paren- 
theses every expression not enclosed completely in parentheses already. 

Furthermore, any return statement is to be replaced by a go to statement 
referring, by its label, to the statement following the procedure statement, which, 
if originally unlabeled, is treated as having been assigned a (unique) label during 
the replacement process. 

The values assignable to, or computable by, the actual input parameters must 
be compatible with type declarations concerning the corresponding formal para- 
meters which appear in the procedure. 

For actual output parameters, only type declarations duplicating given type 
declarations for the corresponding formal parameters may be made. 

Array declarations concerning actual parameters must duplicate, in corre- 
sponding subscript positions, array declarations referring to the corresponding 
formal parameters. 

5. Declarations A 

Declarations serve to state certain facts about entities referred to within the 
program. They have no operational meaning and within a given program their 
order of appearance is immaterial. They pertain to the entire program (or proce- 
dure) in which they occur, and their effect is not alterable by the running history 
of the program. 


i) Type declarations 4. Type declarations serve to declare certain variables, 
or functions, to represent quantities of a given class, such as the class of integers, 
or class of Boolean values. 


Form: A~type (LE, 1), IL), TL.) 


where type is a symbolic representative of some type declarator such as integer 
or boolean and the J are identifiers. 

Throughout the program, the variables, or functions named by the identifiers J, 
are constrained to refer only to quantities of the type indicated by the declaration. 
On the other hand, all variables, or functions which are to represent other than 
arbitrary real numbers must be so declared. 











54 A. J. PERLIs and K. SAMELSON: 


ii) Array declarations 4. Array declarations give the dimensions of multi- 
dimensional arrays of quantities. 


Form: Awmarray (LT, T(t:U), O07: ,1[t:U),-°) 


where array is the array declarator, the I are identifiers, and the ‘‘l’’, and ‘“‘U’”’ 


are lists of integers separated by commas. 

Within each pair of brackets, the number of positions of | must be the same 
as the number of positions of I’. 

Each pair of lists enclosed in brackets [U:l’] indicates that the identifiers 
contained in the list I, I, ... , J immediately preceding it are the names of arrays 
with the following common properties: 

a) the number of positions of I is the number of dimensions of every array. 

b) the values of I, and l’ are the lower and upper bounds of values of the 
corresponding subscripts of every array. 

An array is defined only when all upper subscript bounds are not smaller 
than the corresponding lower bounds. 


iii) Switch declarations 4. A switch declaration specifies the set of designa- 
tional expressions represented by a switch variable. If used in a go to statement, 
its value specifies the label of the statement called by the go to statement (cf. 
go to statements) 


Form: A~switch I:=(D,,D,,°°: , D,) 





where switch is the switch declarator, I is an identifier, and the D; are designa- 


tional expressions (cf. go to statement). 

The switch declaration declares the list D,, D,, ... D,, to be a symbolic vector 
(the “‘switch’’), the designational expression D, being the k” component. 
Reference is made to the switch by the switch variable I [E|, where I is the switch 
identifier and E is a subscript expression. The switch variable when used in 
go to statements selects, by the actual value of its subscript, that component of 
the switch determining the label called for by the go to statement. A switch variable 
being a designational expression, may appear as a component of a switch. 


iv) Function declarations 4. A function declaration declares a given expression 
to be a function of certain of its variables. Thereby, the declaration gives (for 
certain simple functions) the computing rule for assigning values to the function 
(cf. functions) whenever this function appears in an expression. 


Form: Aw~Wy(L1...,I) :=E 


where the J are identifiers and E is an expression which, among its constituents, 
may contain simple variables named by identifiers appearing in the parentheses. 
The identifier I, is the function name. The identifiers in parentheses designate 
the formal parameters of the function. 
Whenever the function Jy (P, P, ..., P) appears in an expression (a function 
call) the value assigned to the function in actual computation is the computed 
value of the defining expression E. For the evalution, every variable V which 








Report on the Algorithmic Language ALGOL 55 


is listed asa parameter I in the function declaration, is assigned the current value 
of the actual parameter P in the corresponding position of the parameter list 
of the function in the function call. The (formal) variables V in E which are 
listed as parameters in the declaration bear no relationship to variables possessing 
the same identifier, but appearing elsewhere in the program. All variables other 
than parameters appearing in E have values as currently assigned in the program. 


Example: I(Z):=Z+38xy 


alpha :=q +I(h+9 x mu) 
In the statement assigning a value to alpha the computation is: 


alpha :=q + ((h +9 x mu) +38 x y) 


v) Comment declarations 4. Comment declarations are used to add to a 
program informal comments, possibly in a natural language, which have no 
meaning whatsoever in the algorithmic language, and no effect on the program, 
and are intended only as additional information for the reader. 


Form: A ~ comment S.; 


where comment is the comment declarator, and S, is any string of symbols not 
containing the symbol “ ;”’. 


vi) Procedure declarations 4. A procedure declaration declares a program 
to be a closed unit (a procedure) which may be regarded as a single compound 
operation (in the sense of a generalized function) depending on a certain fixed 
set of input parameters, yielding a fixed set of results designated by output 
parameters, and having a fixed set of possible exits defining possible successors. 

Execution of the procedure operation is initiated by a procedure statement : 
which furnishes values for the input parameters, assigns the results to certain 
variables as output parameters, and assigns labels to the exits. 


Form: 4~ procedure I(P;) =: (Po), 1(P;) =: (Po),°**, (Pi) =: (Po) 
4;A4;°*:;4; begin ED; 25°°°;4;543°°°; B5E end 


v" , , , 





Here, the J are identifiers giving the names of the different procedures contained 
in the procedure declaration. Each P; represents an ordered list of formal input 
parameters, each P, a list of formal output parameters which include any exits 
required by the corresponding procedures. 

Some of the strings “‘=: (P,)” defining outputs and exits may be missing 
in which case corresponding symbols ‘J (P;)”’ define a procedure that may be 
called within expressions. 

The Ain front of the delimiter begin are declarations concerning only input 
and output parameters. The entire string of symbols from the declarator procedure 
(inclusive) up to the delimiter begin (exclusive) is the procedure heading. Among 
the statements enclosed by the parentheses begin and end there must be, for each 


identifier J listed in the heading as a procedure name, exactly one statement 














56 A. J. PERLIs and K. SAMELSON: 


labeled with this identifier, which then serves as the entry to the procedure. For 
each ‘‘single output”’ procedure I(P,) listed in the heading, a value must be assigned 
within the procedure by an assignment statement ‘J := E’’, where I is the 
identifier naming that procedure. 

To each procedure listed in the heading, at least one return statement must 
correspond within the procedure. Some of these return statements may however 
be identical for different procedures listed in the heading. 

Since a procedure is a self-contained program (except for parameters), the 
defining rules for statements and declarations within procedures are those already 
given. A formal input parameter may be 


a) a single identifier J (formal variable), 


b) an array I[,,°*:,] with & (k=1, 2,...) empty subscript positions, 
c) a function F(,,°*: ,) with k (k =1, 2, ...) empty parameter positions, 
d) a procedure P(,,°** ,) with k (k =1, 2, ...) empty parameter positions, 


e) an identifier occurring in a procedure which is added as a primitive to the 
language. 


A formal output parameter may be 


a) a single identifier (formal variable) 
b) an array with k (k =1, 2,...) empty subscript positions 


A formal (exit) label may only be a label. 


A label is an admissible formal exit label if, within the procedure, it appears 
in go to statements or switch declarations. 


An array declaration contained in the heading of the procedure declaration, 
and referring to a formal parameter, may contain expressions in its lists defining 
subscript ranges. These expressions may contain 


1. numbers 
2. formal input variables, arrays, and functions. 


All identifiers and all labels contained in the procedure have identity only 
within the procedure, and have no relationship to identical identifiers or labels 
outside the procedure, with the exception of the labels identical to the different 
procedure names contained in the heading. 

A procedure declaration, once made, is permanent, and the only identifiable 
constituents of the declaration are the procedure declaration heading, and the 
entrance labels. All rules of operations and declarations contained within the 
procedure may be considered to be in a language different from the algorithmic 
language. For this reason, a procedure may even initially be composed of state- 
ments given in a language other than the algorithmic language, e.g., a machine 
language may be required for expressing input-output procedures. » 

A tagging system may be required to identify the language form in which 
procedures are expressed. The specific nature of such a system is not in the 
scope of this report. 

Thus by using procedure declarations, new primitive elements may be added 
to the algorithmic language at will. 








Report on the Alogrithmic Language ALGOL 57 























Part III 
a) Basic symbols 
delimiters 6: 
Operators Separators Brackets Declarators 
w~-+- goto o~, B~ ( gy ~ procedure 
= do : ) switch 
x return ; [ array 
| stop [= ] type* 
4 for =: t comment 
Vif oe \ 
A or if . begin 
=e if either i end 
+ : sate 
> 
> 
< 
< 
non-delimiters ju: 
letters digits 
A~A through Z S~0O through 9 


a through z 


b) Syntactic skeleton 


Syllables: 

list 
l~E,E,:::',E 
simple variable 
V~I 


subscripted variable 
V~I[E,E,:::,E} 


function 
F~I(P,P,:::,P) 
expression and Boolean expression 


E 
B 


statement label 
L~I 
G 


* Representant 


For the composition rules see the appropriate sections in Part II. 














58 A. J. PERLIs and K. SAMELSON: 


designational expression 


D~L 
I[E} 
parameters 
P For the composition rules see the appropriate sections in Part II 
identifier 
I~, upp 
integer 
G~oss:s 
number 
may be empty 
N~G.GyitG 
{__+———— may be empty 





string of symbols 
S,~ xen *** xe where x is not @, and @ is a particular delimiter 


Statements Z: 


assignment statement 
x~V:=E 
V:=B 
compound statement 
xX ~ begin X ; X-*+; Bend 


at least one Z 





labelled statement 
XZ~L:2Z where Zis unlabeled. 


go to — statement 
z2~gotoD 


do — statement 
ZxZ~doL ,L (S_—-1,S_-1,:::,S.-]1) 


—~—_> 


may be empty may be empty 





quantifier statements 
z~ifB 
for V:=lI 
jor V := E(E) E, E(E)E,*::,E(E)E 
alternative statement 
z ~ if either B,; X,; or if B,; X,; °°: ; or if B,; Z, end 


stop- and return-statement 
Zz ~ stop 
return 








Report on the Algorithmic Language ALGOL 59 


procedure statement 
2 ~I(R) =:(R) where R~P,P...,P 


Declarations 4: 


Function declaration 

4A~I(R):=E 

Procedure declaration 

A ~ procedure _I(R) =: (R)I(R) =: (R) ... I(R) =:(R) 
at anal —_—_—_— —_—_—~Vaee —_—_ 

may be empty may beempty may be empty 

4; A;-- ; 4; begin X; X;--- A; 4; °°: ; Z; Bend 
where R~P,P,P,:::, P,P ar 


Switch declaration 
A ~ switch I :=(D, D,-:: , D) 





Array declaration 
A ~warray (0,0,°°* ,U({t:U,0,°°: , 1[t:0), 0, °**) 


Symbol classification declaration 
A~ type (I,1,"** 1) 


Comment declaration 
A~comment S; 





c) Publication language 


As stated in the introduction, the reference language is a link between hardware 
languages and handwritten, typed or printed documentation. 

For transliteration between the reference language and a language suitable 
for publications*, the following 


transliteration rules 
may be used 


reference language publication language 

subscript brackets [ |] lowering of the line between the brackets 

exponentiation parentheses t+ | raising of the line between the arrows 

parentheses ( ) any form of parentheses, brackets, braces 

basis of ten 10 raising of the ten and of the following integral 
number, inserting of the intended multiplica- 
tion sign 

statement separator : line convention: each statement on a separate 


line may be used 


Furthermore, if line convention is used, the following changes may be simul- 
taneously used: 


multiplication cross x multiplication dot 
decimal point . decimal comma 
separation mark , any common separation mark that will not 


be ambiguous 





* For example, for lectures in numerical analysis. 











60 A. J. PERLIs and K. SAMELson: Report on the Algorithmic Language ALGOL 


Example 


Integration of a function F(x) by Simpson’s Rule. The values of F(x) are 
supplied by an assumed existent function routine. The mesh size is halved until 
two successive Simson sums agree to within a prescribed error. During the mesh 
reduction F(x) is evaluated at most once for any x. A value V greater than the 
maximum absolute value attained by the function on the interval is required for 
initializing. 

abs (absolve value) is the name of a standard procedure always available 
to the programmer so that it need not be supplieo as an input parameter. 


procedure Simps (F (), a, 6, delta, V) 


comment a,b are the min. and max. resp. of the points def. interval of integ. 
~—_ F() is the function to be integrated. 
delta is the permissible difference between two successive Simpson sums. 
V is greater than the maximum absolute value of F on a, b; 





begin 
Simps: Ibar :=V x (b—a) 

%:= 1] 

h :=(b —a)/2 

J :=h x (F(@ +F(d)) 
Jl: S :=0 


for k :=1(1)n 


n 


S+F(a+(@xk— 0 xM 
T:=J4+4xhxS 
if (delta <abs (I — Ibar)) 


begin Ibar :=I 
- (I+ J)/4 
c= 2xn;h:=h/[2 


go to "i 
Simps := 1/8 





end 

return 
integer (k, n) 
end Simps 





Computation Laboratory Carnegie Institute of Technology 
Pittsburgh, Pennsylvania 


and 
Mathematisches Institut der Universitat Mainz 


(Received October 20, 1958) 





Numerische Mathematik 1, 61—72 (1959) 


EinschlieBen der Lésungen von Randwertaufgaben* 


Von 
L. COLLATZ und J. SCHRODER 


Bei Iterationsverfahren fiir Randwertaufgaben bei gewodhnlichen oder par- 
tiellen Differentialgleichungen 14Bt sich in vielen Fallen durch Wahl geeigneter 
Ausgangsnaherungen erreichen, daB diese eine Lésung einschlieBen. Entspre- 
chende Aussagen gelten (unter bestimmten Voraussetzungen) allgemeiner fiir 
Iterationsverfahren der Form u,,.,—T7u, zur Lésung einer Gleichung u=Tu 
in einem halbgeordneten Raum, wenn T ein monoton nichtfallender oder monoton 
nichtwachsender Operator ist. Ergebnisse fiir dieses allgemeine Verfahren wurden 
fiir monoton nichtfallende Operatoren bereits in [6], fiir nichtwachsende in [8] 
funktionalanalytisch formuliert. Auch praktisch wurde diese Eigenschaft mono- 
toner Operatoren bereits zur Fehlerabschatzung ausgenutzt, z.B. fiir das Dif- 
terenzenverfahren bei partiellen Differentialgleichungen (monoton nichtfallender 
Operator) in [2], fiir das Differenzenverfahren bei nichtlinearen gewoéhnlichen 
Differentialgleichungen und fiir gewdhnliche Differentialgleichungen (monoton 
nichtwachsender Operator) in [9]. Jedoch scheint noch nicht geniigend bekannt 
zu sein, welche Méglichkeiten dieses Verfahren zur Lésung von Randwertauf- 
gaben bietet. Das hangt wohl auch damit zusammen, daB bei der Anwendung 
abstrakter Satze auf konkrete Aufgaben gewohnlich noch allerlei Schwierigkeiten 
zu tiberwinden sind. Mit Hilfe der funktionalanalytischen Satze erhalt man in 
vielen Fallen auf verhaltnismaBig einfache Weise die Aussage, daB eine Lésung 
existiert, und gleichzeitig Schranken fiir sie. Oft kann man auch die Eindeutigkeit 
der Lésung beweisen. Zu Beginn der Arbeit werden die funktionalanalytischen 
Satze noch einmal in einer fiir unsere Zwecke brauchbaren Form formuliert und 
bewiesen. Einige Beispiele erlautern das Verfahren. Weitere Beispiele findet man 
in [3]. Die Ergebnisse sind auch auf Anfangswertaufgaben anwendbar. 


§ 1. Das allgemeine Iterationsverfahren u,,,,— Tu, 

1.1. Allgemeine Voraussetzungen. Es sei Si ein Banachscher Raum von 
Elementen w,v,.... In 8 seien also Addition «+ v und Multiplikation mit 
Zahlen au (bei den gewohnten Rechenregeln der Vektoralgebra) erklart, und es 
sei eine Norm || «|| definiert, beziiglich welcher ® vollstandig ist. Ferner soll R 
halbgeordnet sein, d.h. gewisse Elemente wet seien als 2O (nichtnegativ, 
0=Nullelement von ) definiert. Dabei mégen die iiblichen Regeln fiir das 
Rechnen mit Ungleichungen gelten, und es sei 

u=0 falls w=limu, (dh. lim||u—u,||=0) und u,=0 


n—-> oo n-> co 


(nm =1,2,3,...) (4-4) 





* Herrn RoBERT SAUER zum 60. Geburtstag am 16. 9. 58 gewidmet. 
Numer. Math. Bd. 1 5 











62 L. CoLtatz und J. SCHRODER: 


ist, sowie 
|| «|| => ||v|| fir wSvZ0. (1.2) 


T bedeute einen stetigen Operator, welcher eine Teilmenge Dc Rin R abbildet. 
Gesucht ist eine Lésung “* (aus D) der Gleichung 


u=Tu. 


Zur Lésung wird das Iterationsverfahren 


t..,;= 108, (* =0,1,2,...), %eD 
benutzt. 
Sind v, w zwei Elemente mit v Sw, so bedeute <v, w> die Menge der Elemente 


ue KR mit 
vsusw. 


Jede solche Menge <v, w> sei, wenn v und w in ®D liegen, ganz in D enthalten. 
Ferner sei 7 <v, w) fiir v, we D kompakt. Dabei wird eine Menge GS kompakt 
genannt, wenn jede unendliche Teilmenge von © ein (nicht notwendig in © lie- 
gendes) Haufungselement 4 ¢ ®t besitzt. 

1.2. Hilfsiiberlegungen. Ist u, eine monoton nichtfallende (oder nicht- 
wachsende) Folge, welche ganz in einer Menge T <v, w) mit v, we®D liegt, gilt 


also 
WSugS-:- (bzw. ---Su,sm), 


so konvergiert diese Folge. Denn da T <¢v, w) kompakt ist, existiert eine gegen 
ein Element u konvergente Teilfolge u,, (n;<;4,): 


\|u—u,||<e fir i>T(e). 
Nun ist 
OSu—u Su—usu—u,, fir n2m2]n; 


und damit wegen (1.2) 
\|u—u,,|| S||u—u,,||<e fir m>N(e), 


worin N(e) nur gr6éBer als ein festes m; mit 1 >J(e) zu sein braucht. Es gilt also 
lim u,,= 4. 

J. SCHAUDER [7] bewies folgenden Fixpunktsatz: Bildet ein stetiger Opera- 
tor J eine konvexe, abgeschlossene Menge J eines Banachschen Raumes in sich 
ab und ist 7M kompakt, so existiert in M ein Fixpunkt u*=Tu*. 

Jede Menge It = <v, w> ist infolge (1.1) abgeschlossen, d.h. sie enthalt mit 
einer konvergenten Folge auch deren Grenzelement. AuBerdem ist I konvex, 
denn fiir u, u’e<v, w) und OS#S1 gilt 


v=tv+(1—dvStu+(i—dwstw+(i-Aw=w. 


Bildet daher T eine Menge <v, w) (vSw mit v, weD) in sich ab, so enthalt diese 
Menge auf Grund unserer Voraussetzungen und nach dem Schauderschen Fix- 
punktsatz eine Lésung u* der Gleichung u = Tu. 


EinschlieBen der Lésungen von Randwertaufgaben 63 


1.3. Die abstrakten Satze. Der Operator T heiBe 


nichtfallend es 


Tu= 


monoton { . : 
Fanon 


a gilt fir w<v und u, ved. 
Tv 
Unter den oben formulierten allgemeinen Voraussetzungen gelten die folgen- 
den Satze. 
Satz 1. Ist der Operator T monoton nichtfallend und gilt 
UpSto, MypSm, MSty (m= Tu, % = Tu) (1.3) 


fiir zwei Elemente uy,U, aus D, so konvergiert die dann durch u,.,=Tu, (n=O, 
1,2,...) definierte Folge u,, (und ebenso die durcht,.,=Tt,, erklarte Folge u,*) 
gegen eine Losung u* = Tu* in D, und es gilt 


USuWySuS- Su*s-.- Sa,Su, <u (1.4) 
Satz 2. Ist der Operator T monoton nichtwachsend und aie 
UgSto, MS, Sty (My = Tuy, U, = Tip) (1.5) 


fiir zwei Elemente uy, aus D, so existiert eine Lésung u*=Tu* aus D, und es 
gilt fiir die dann durch u,,,=—Tu, und t,,,=Tu, (n=0,1,2,...) definierten 
Folgen u,, und t,, 


SH, Su Sé,S---Su*S--- Susu, usw. (1.6) 
Die Folgen ty, ty, Ug,Ug,... UNA ty, Uy, tg, Ug,... Ronvergieren gegen Grenz- 
elemente % bzw. u, fiir welche 
u=Th, 4 =Th (1.7) 
ist. 
Hat Tu die Form 
Tu=r+Au (1.8) 


mit festem re R und auf KR definiertem linearem, stetigem Operator A, so ist 
u* = $(u +4) 
eine Lésung der Gleichung u=Tu, fiir welche (1.6) gilt. 


Zusatz. Ist der Operator T monoton nichtwachsend, liegt mit der Ausgangs- 
naherung uy auch u,=T uy in D und gilt** 


USmy, MSU, (u=—Tm), (1.9) 


so sind die Voraussetzungen (1.5) fiir die Elemente uy und ig= u, erfiillt, und (1.6) 


geht tiber in 
US UgSmyS--Su*sS::-Su,Sugsy. (1.10) 


Beweis des Satzes 1. Aus u)<%, folgt u,= Tu)S Tu y<u,. Die Behauptung 
Uy, 1S 4, SU, Sh, 1; Un-1> u,-1€D (1.11) 





* Gleichheit der beiden Grenzelemente wird nicht behauptet. 
** Eine entsprechende Aussage gilt im Falle %#,%), %#,S%. 








64 L. Cottatz und J. ScHRODER: 


ist also fiir » =1 wegen (1.3) richtig. Wir nehmen an, sie gelte bis n =p=1; 
dann liegen die Elemente u, und #, in <u,_1,%»— >, also in D. Wendet man 
auf (1.11) fiir 7 =~ den Operator TJ an, so folgt wegen der Monotonie des Opera- 
tors die Behauptung (1.11) fiir » +1 und damit fiir alle n. 


Die in T <u,% > enthaltene Folge u, (n =1, 2, 3,...) nimmt also monoton 
nicht ab und konvergiert daher. Fiir das Grenzelement u*=lim u, folgt (1.4) 
mit (1.1). «* liegt also in <u%,% > und damit in D. Da der Operator T stetig 
ist, gilt ; 
u* = limu,.,=lim Tu, = Tlimu, = Tu*. 


In entsprechender Weise beweist man die Konvergenz der Folge 4, gegen eine 
Lésung. 

Die Existenz einer Lésung u*, fiir welche (1.4) gilt, kénnte man auch mit 
dem Schauderschen Fixpunktsatz zeigen, denn aus 


u,SUuSu, 
folgt fiir jedes feste (=O, 1, 2,...) 
Uy S Ung, = Tu, S Tus Th, =, 41S, 
T bildet <u,,,u%,> also in sich ab, und diese Menge enthalt deshalb eine Lésung. 
Beweis des Satzes 2. Ahnlich wie bei Satz 1 wird durch vollstandige Induktion 
Up SU, S UgStgS --- SugSt,S u,Su, 


bewiesen, indem man benutzt, daB der Operator JT monoton nicht wachst, und 
dann aus der Monotonie der in T (up, %,> gelegenen Folgen%,, u.,... und 4, %>,... 
deren Konvergenz gegen Grenzelemente # bzw. % mit u,S%SUSuy,4, ge- 
folgert. Geht man in den Gleichungen 


Uap= Tgp, Monti = Tug, (k =1,2,3,--.) 
zur Grenze k-—> oo iiber, so erhalt man (1.7), da T stetig ist. 
Hat T die spezielle Form (1.8), so gilt 


ti=r+Au, “uz=r+Aun 
und damit 


(@+4) =r+3(Ad+ Au) =r+A(t(é+a)) =T(E(H+4+H). 


Im allgemeinen Fall des Satzes 2 beweist man die Existenz einer (1.6) ge- 
niigenden Lésung mit dem Schauderschen Fixpunktsatz. Aus 


MgpSUS Moni 
bei beliebigem festem k (=0, 1, 2,...) ergibt sich 


Mong = Tug,= Tu Tg, 41 = Mens 2= Mean: 


T bildet <u,,, %2,4,> also in sich ab, und diese Menge enthalt deshalb einen 
Fixpunkt u* = Tu*. 





EinschlieBen der Lésungen von Randwertaufgaben 65 


§ 2. Anwendung auf Differentialgleichungen 
2.1. Aufgabenstellung. Es sei 8 ein beschranktes offenes Gebiet des p-dimen- 
sionalen Euklidischen Raumes mit dem Rand J. Die Punkte dieses Raumes 
werden mit x oder ¢ bezeichnet. Gesucht sind auf 8(=8+J°) stetige reelle 
Funktionen u(x) mit bestimmten Differenzierbarkeitseigenschaften, welche auf 8 
einer Differentialgleichung 


M[u] = f(x, ) (2.1) 
geniigen und gewisse Randbedingungen 
U,[u)=y, (u=1,2,...) (2.2) 


erfiillen. 


Alle vorkommenden GrdéBen seien reell. M und die U,, bedeuten formale lineare 
Differentialoperatoren, die y, auf dem Rand definierte Funktionen. Die Funk- 


tion /(x, y) sei erklart und stetig im Gebiet 
G: xeB, g(x) SyS<y(x) (2.3) 


mit gegebenen auf § definierten Funktionen g(x), y(x) (es darf an einer oder 
beiden Seiten < durch < ersetzt werden, auch die Grenzfalle py = — oo, y= + oo 
sind zugelassen). 

Wird im folgenden der Differentialausdruck M[u] mit irgendeiner Funktion 
u(x) gebildet, wie z.B. in (2.4), so setzen wir dabei jeweils voraus, daB diese 
Funktion u auf § stetig ist und die von der Lésung der Aufgabe (2.1), (2.2) ver- 
langten Differenzierbarkeitseigenschaften besitzt. 

Es gebe eine auf $ stetige Funktion g(x) sowie eine auf 8 x % (auBer eventuell 
fiir x =&) erklarte ,,Greensche Funktion‘‘ G(x, &) mit folgenden Eigenschaften. 
Ist die Aufgabe 


M[u]=r(x), U,[u]=y, (u=1,2,...) (2.4) 


fiir eine gegebene auf % stetige Funktion 7(x) lésbar, so habe die Lésung die 
Gestalt 


u(x) = a(x) +f G(x, 8) r(€) db. (2.5) 


Das Problem (2.1), (2.2) sei der Aufgabe Aquivalent, eine auf § stetige Lésung 
u(x) der Integralgleichung 


u(x) = g(x) + G (x, &) f(, u(€)) dé (2.6) 
zu ermitteln. Die Greensche Funktion sei nichtnegativ 


G(x,é)>0 fir xeB, eB (x+8) (2.7) 


und es gelte 


f |G(x, & —G(x',6|di<e fiir |x —x'|<d(e), x, x'e®B. (2.8) 
8% 





Uber das Gebiet $, den verwendeten Integralbegriff und die Greensche 
Funktion G wird sonst lediglich vorausgesetzt, daB man bei beliebigen auf B 
stetigen Funktionen v(x) und s(x) mit |7(x)|<s(x) nach 


| [ Kr) dé] SS |K||r(@| des f|K| s(e) dé 
8 8 8 











66 L. CoLLatz und J. SCHRODER: 


abschatzen kann, wenn K die Greensche Funktion G(x, é) oder eine Differenz 
G(x, ) —G(x’, &) mit x, x’ eB bedeutet, was also die Existenz der auftretenden 
Integrale einschlieBt. 

Das Iterationsverfahren zur Lésung der gegebenen Aufgabe laute: 


M[u, +1] = /{(%,U,); U, [Un +1] ned (u =1,2,...) (n =0, 1,2,...); 


(x, U(x) EG, u(x) stetig) (2.9) 


Soweit die Funktionen u, (x) hierdurch erklart sind, gilt fiir sie 


Mei(®) =6(2) +f (8) Ema) dE (= 0,1,2,...), (240) 


denn es ist u,(x) und damit auch /(x, u,(x)) stetig (s. dazu Nr. 2.2). 


2.2. Funktionalanalytische Formulierung der Aufgabe. % sei der Raum 
der auf $ stetigen Funktionen. «Sv wird durch u(x)<v(x) fiir xeB8 und die 
Norm durch || «|| = Max | (x)| erklart. 

s 


T bedeute den auf der Menge D der in & verlaufenden Funktionen u(x) eR 
durch 
Tu = g(x) + J G(x, &) f (&, w(&)) dé 


definierten Operator. Die Gleichung 
u=Tu 


ist dann nach Voraussetzung dem Ausgangsproblem (2.1), (2.2) aquivalent, und 
(2.10) laBt sich als 
%u4,3=0u, (* =0,14,2,...) 
schreiben. 
Wir beweisen, daB jede Menge S = Tv, w> (vSw mit v, we D) kompakt ist. 
Wegen (2.8) ist 
J G(x,&) dé — fe(*, €) ae | S J1G(x, 6) —G(x',é)|d&<e fir |x —x’| < d(e) 


x, x’ eB, 
die Funktion f G(x, &) dé also auf § stetig und damit auch dem Betrage nach 
B 


beschrankt, etwa durch die Konstante N,. Ferner ist die Funktion f(x, y) auf 
der Menge x e%, v(x) < ySw(x) stetig, also ebenfalls dem Betrage nach (durch 
N,) beschrankt. Ist nun z= Tue T<v, w), so gilt mit N, = Max |g(x)| 
8 
l2(2)| S| a()] +1 f Ge 8) AE.) 48] S|e()] +f C(x 8) de NSM+ MM 


fir xeB 
und wr (2.8) 


l2(x) —2(x*)| =| f (G(x, &) — G(#", 8) HE, m) a8] Sf [G(x 4) — G(x,8)|dé-M<e 
|x —x'|<6(+,); x, x' eB. 


Die Menge dieser Funktionen z¢e T<v, w) ist also gleichmaBig beschrankt und 
gleichgradig stetig. Daher enthalt jede unendliche Teilmenge von 7 <v, w> eine 








EinschlieBen der Lésungen von Randwertaufgaben 67 


gleichmaBig, also im Sinne der Norm, gegen ein Element aus ® konvergente 
Folge verschiedener Elemente. 


Die Stetigkeit des Operators T folgt aus 
|| Pu — To] =Max| f G(x,8) (1G. ») — 16.) a8 


< Max f G(x, &)dé- Max | (6, u(é)) — 7(&,v(€))| 


xeBB 


mit Hilfe der Stetigkeit der Funktion /(x, y). 
Damit sind alle in 1.1 formulierten Voraussetzungen erfiillt. Der Operator T ist 


nichtfallend falls in @ y) Sf (x, y’) 


monoton Hx, 9) = fle fe fir ysy’ 


nichtwachsend 
gilt. 
2.3. Ergebnis. Fiir die in 2.1 formulierte Aufgabe bie die folgenden Satze: 
Satz 3. Es set 
f(x,y) St(x,y’) fir xeB, p(x) SySy'Sy(x), (2.11) 
es gebe zwei in & verlaufende stetige Ausgangsnaherungen u(x), U(x), fiir welche 
durch (2.9) zwei erste Naherungen u(x), 4,(x) erklart sind, und es gelte 
Up(x) Sto(x), u(x) Sum(x), (x) Suq(x) fiir xeB. (2.42) 


Dann sind durch (2.10) (mit ug(x) bzw. tg(x) als Ausgangsnaherung) zwei 
Folgen u,(x) und %,(x) (1 =0,1, 2,...) definiert, welche gleichmafig auf B jede 
gegen eine Losung der Aufgabe (2.1), (2.2) konvergieren*, und fiir jede dieser Lésungen 
u*(x) golt 

Uo (x) S u(x) S u(x) 
Satz 4. Es set 
f(x,y) 2Hh(x,y') fir xeB, p(x) SySy'Sy(x), (2.14) 


es gebe zwei in & verlaufende stetige Ausgangsnaherungen uy (x), %o(x), fiir welche 
durch (2.9) zwet erste Naherungen u(x), %,(x) erklart sind, und es gelte 


Uo(x)Su%o(x), me(x)Sm,(%) und u(x) S u(x). (2.15) 


IIA 


+ Su¥(x) S++ S g(x) Stay (x) Stag(x). (2.43) 


Dann ist die Iteration (2.10) mit jeder der Ausgangsnaherungen uy(x), U(x) 
unbeschrankt durchfiihrbar, und es existiert eine Lésung u*(x) der Aufgabe (2.1), 
(2.2) mat 


Ug (x) S my (x) S ug (x) 


lA 


tay (*) S +++ Su*(x) S++ Suy(x) S Hy (x) S um (x) S g(x). 
(2.16) 

Zusatz. Gilt (2.14), sind fiir eine in & verlaufende stetige Ausgangsnaherung 
U(x) durch (2.9) zwei weitere Naherungen u(x), u,(x) definiert und ist** 


Uo(x)Sm(x), U(x) S u(x), 





- * Gleichheit dieser Lésungen wird nicht behauptet. 
** Eine entsprechende Aussage gilt im Falle %,<t%), tS ity 











68 L. CoLLatz und J. SCHRGODER: 


so geniigen die Funktionen uo(x), g(x) =u,(x) den Voraussetzungen (2.15), und 
(2.16) geht tiber in 


U(x) S uq (x) Suy(x) S++» Su*(x) S--- Sug (x) Su, (x). 


Diese Behauptungen folgen unmittelbar aus den Satzen 1 und 2, sowie dem 
Zusatz zu Satz 2. 
Die Eindeutigkeit der Lésung 14Bt sich oft unter folgender zusatzlicher Vor- 
aussetzung beweisen: 
Die Funktion /(x, y) habe auf © eine stetige Ableitung /,(x, y). Die Eigen- 
wertaufgabe 
M{ujJ=Au, U|[ujJ=O (u=1,2,3,...) 


besitze nur positive Eigenwerte 4,5 /,5/4,S--- und aus 
M[u] =a(x)u, U,[ujJ=O0 (u=1,2,3,..-) (2.17) 
folge u=0, falls «(x) eine stetige Funktion mit 
a(x)Se<A, (oe =const) (2.18) 
ist. 
Gilt unter dieser Voraussetzung in © 


ty(%,9) Se<h, (2.19) 


so besitzt die gegebene Aufgabe nur eine in & verlaufende Lésung. 
Denn seien “u* und u** Lésungen, so ist 


M[u* — u**] = f(x, u*) — f(x, u**) = a(x) (u* — u**), 


U,[u*—u**]=0 (u=1,2,...) 
mit 
a(x) = f,(x,u*+ t(u**—u*))<S9<4, (0OStS1), 


also u*— u**=0. 


Im Falle /,(x, y)20 des monoton nichtfallenden Operators kann man die 
Eindeutigkeit der Lésung auch mit Hilfe eines in [1] angegebenen Vergleichs- 
satzes fiir Eigenwerte zeigen, da «(x) dann nichtnegativ ist. Im Falle /,(x, y) <0 
des monoton nichtwachsenden Operators gilt die Ungleichung (2.19) immer 
fiir 9 =0. 

Ahnlich 148t sich unter der obigen Voraussetzung und den Voraussetzungen 
des Satzes 4 im Falle /,(x, y) <0 des monoton nichtwachsenden Operators auch 
die Konvergenz der Folge u, gegen eine Lésung u* beweisen. Fiir die Grenz- 
funktionen % und « der Folgen uy, %,, %, ... DZW. tig, Uy, to, ... gilt 


i — a = f G(x, §) [FE @) — HE, m)) dE. 
Folgt hieraus (wie etwa bei der in Nr. 3.1 behandelten Problemklasse) 
M[u — a] = —[f(x,a) —f(x,%)], U,[%i—-—ad])=0 (u=1,2,3,...) 
und gilt in & 


— f,(%,y) Se<h, 





EinschlieBen der Lésungen von Randwertaufgaben 69 


so ergibt sicn ahnlich wie oben ui —u =O, d.h. die Folge u, konvergiert gegen 
eine Lésung u* = % =u. 

Aus (2.17), (2.18) kann man z.B. auf «= 0 schlieBen, falls ein Entwicklungs- 
satz derart gilt, daB 


[wax =D) fuo,dx)? und J M[uludx=YA,(fug.axy 
B y \B B , \s 


ist, wenn g,(x) die zu A, gehérigen Eigenfunktionen bedeuten. In diesem Falle 

ist némlich 
f M(ujudx >A, f wdx 

und ° se 

f M(ujudx =fa(x)Wdxsof wvdx, 

g B B 


welche Ungleichungen wegen 9< A, nur fiir «=0 miteinander vertraglich sind. 


Zur praktischen Rechnung sei noch folgendes bemerkt. Besonders bei nicht- 
linearen Aufgaben wird die analytische Gestalt der Naherungen mit wachsen- 
dem m sehr schnell komplizierter. Man wird dann die Naherungen abandern 
wollen. Beginnt man mit einer Ausgangsnaherung, welche ganz auf einer Seite 
der Lésung liegt (also entweder ,,unterhalb“ oder ,,oberhalb‘‘), so liegt die damit 
berechnete nachste Naherung bei monoton nichtfallendem Operator auf der 
gleichen Seite, bei monoton nichtwachsendem Operator auf der anderen Seite 
der Lésung, z.B. folgt also aus v»Su* im Falle (2.11) Tvg=v,Su*, dagegen 
im Falle (2.14) u*<v,=Tv,. Eine ,,unterhalb‘‘ der Lésung liegende Ausgangs- 
naherung vp, erhalt man im Falle (2.11) z.B., indem man vy, so wahlt, daB fiir 
irgendein » u,SvySu,,, gilt, im Falle (2.14), wenn 4,5 vypSu%,,, oder 
Uo p41 V9 SZ Ug,4.2 mit irgendeinem f ist. 


§ 3. Beispiele 
3.1. Eine Klasse partieller Differentialgleichungen. Bei gewéhnlichen Dif- 
ferentialgleichungen kann man im allgemeinen leicht nachpriifen, ob Funktionen 
g(x) und G(x, &) mit den verlangten Eigenschaften existieren. Die Forderung 
(2.8) ist z.B. erfillt, wenn G(x, &) auf 8x % stetig ist. Wir geben als Beispiel 
eine Klasse von Randwertaufgaben bei partiellen Differentialgleichungen an, fiir 
welche die genannten Voraussetzungen erfiillt sind. 
% sei ein offenes, beschranktes, einfach zusammenhangendes Gebiet der 
%,, %,-Ebene mit stetig gekriimmtem RandJ’: x,=«(s), x,=B(s) (s =Bogen- 
lange, «’’(s), B’’(s) stetig [5]). Gesucht sind auf $ stetige, auf 8 mit stetigen ersten 
und zweiten partiellen Ableitungen versehene Funktionen u(x) = 4(%,, x2), welche 
auf % einer Differentialgleichung 
(M(u] =) — Au =f(x,u) (3.1) 
geniigen und auf J’ die Werte 
u = y(s) (3.2) 
annehmen, wobei y(s) eine gegebene stetig differenzierbare Funktion bedeutet. 
Die Funktion /(x, y) =/(%*,, %2, y) sei auf & (2.3) mitsamt ihren partiellen Ablei- 
tungen erster Ordnung stetig. 
Dann existieren Funktionen g(x) =g(x,, %.) und G(x, &) =G(x,, x9; &, &) 
mit den verlangten Eigenschaften. g(x) ist die Lésung der Aufgabe M[u] =0, 








70 L. CoLtatz und J. SCHRODER: 


u =y(s) auf I’ und G(x, &) die zum ersten Randwertproblem der Potentialtheorie 
und dem Gebiet 8 gehérige Greensche Funktion. G(x, &) ist nichtnegativ und 
jede (2.4) geniigende Funktion u hat die Gestalt (2.5) (vgl. [4]). 


Wir beweisen (2.8). Es sei f, = f, (0) die Menge der in § gelegenen Punkte é mit 
(%, — §)?+ (%2— §&2)?< 9. 
Wir wahlen ein beliebiges (aber festes) e>0. Es gibt eine Zahl 4(e) derart, daB 


f G(%, 8) dé < 5 fiir beliebige x,% «B® und jedes 9 < A (e) 
tz 
gilt [4], und es sei nun @g eine feste Zahl <A(e). 
Die Funktion G(x, é) ist auf 8x stetig, abgesehen von x=&. Auf der 
abgeschlossenen Menge § der Punkte x,& mit xe, &eB—f, ist G(x, &) daher 
gleichmaBig stetig, so daB ein w(e) mit der Eigenschaft existiert, daB 


|G(x,&) —G(x’,6|<e fir |x—x'|<p(e); x, €e9, x’,€e 
gilt. Daraus folgt 


J |G(x,é)—G(x’,8|d&é<eF fir |x—x'|<yp(e); x, x'eB, 
B—t,-ty 


wenn F den Inhalt von 8 bedeutet. Insgesamt schétzt man ab 


J|G(x8)— G(X des J (E(x) +G(x Ede + J |G(x,&) —G(x',)| dé 


B 


~t,-t,’ 
< = + > =e fiir |x —x’| < d(e) =n(3F)- 


Es bleibt noch zu zeigen, daB jede auf § stetige Lésung der Integralgleichung 
(2.6) auch der Differentialgleichung (3.1) geniigt. Nach [5] erfiillen die Funk- 
tionen g(x) und f G(x, &)r(&) dé bei beliebiger auf § stetiger Funktion r(x) 

B 


auf $8 eine Hélder-Bedingung, also ist u(x) auf 8 Hélder-stetig und damit wegen der 
vorausgesetzten Differenzierbarkeitseigenschaften auch /(x, w(x)). Daraus folgt 
dann nach [5] weiter, daB das Integral in (2.6) auf B stetige erste und zweite 
Ableitungen besitzt und u(x) die Randwertaufgabe (3.1), (3.2) lést. 


3.2. Beispiele fiir gewéhnliche Differentialgleichungen. 
Beispiel 1. — u’’=e“—0,5; u(1) =u(—1) =0. 
Mit M[u] =—wu”, f(x,y) =e’—0,5 und dem Gebiet 
G: |x]}<1, OSy<o (3.3) 


sind die in Nr. 2.1 genannten Voraussetzungen erfiillt. Das Iterationsverfahren 
lautet: 
— Uns. =e™—O0,5, Myiy(1) =%,4,(—1) =O (mn =0,1,2,...). 
In & gilt (2.11). Um mit Satz 3 eine Fehlerabschatzung zu erhalten, muB 
man also Funktionen uy, 4,, %), %, ermitteln, die (2.12) erfiillen. Wir machen 
den Ansatz 


uy (x) = (1 — x?) (ag+ a, x*+ a, x4), ty (x) = (1 — x?) (dg + 0, x*+ 6, x4), (3.4) 


berechnen von diesen Funktionen ausgehend riickwarts u(x) und %(x) und 
versuchen die Parameter a; und 6; so zu bestimmen, daB (2.12) im Intervall 





EinschlieBen der Lésungen von Randwertaufgaben 71 


% =[—1, 1] gilt und die Funktionen u,(x) und i, (x) sich méglichst wenig unter- 
scheiden. Das Ergebnis ist: 

Uy = In [1 + (1 — x*) (0,672 — 0,3 x?)] <u, 

u, = (1 — x*) (0,515 — 0,081 x? + 0,01 x4) <u, 

ti, = (1 — x*) (0,535 — 0,070 x? + 0,007 x4) < tig, 

%o = In [1 + (1 — x*) (0,709 — 0,21 x?*], 

| (x) — %,(x)| < 0,02. 

Hierbei wurde verlangt, daB auch uw, und %, die Randbedingungen erfiillen, 
und es wurde versucht, die Parameterwerte durch Zeichnung der Funktionen 
méglichst giinstig zu wahlen. 

Nach Satz 3 existiert eine Lésung u*(x) der gegebenen Aufgabe, und fiir 


diese gilt te (2) < u*(x) <i (x). 


Beispiel 2. —u’’=e-“, u(1) =u(—1) =0. 
Mit M[u] =—w’”, f(x, y)=e-” und dem obigen Gebiet (3.3) sind die Vor- 
aussetzungen der Nr. 2.1 wieder erfiillt. Jedoch gilt in & jetzt (2.14), so daB durch 
—m' =e”, m(+1)=0; —a'=e-%, u%,(+1) =0 


verkniipfte Funktionen up, 4, %»,%, zu ermitteln sind, welche (2.15) geniigen. 
Wir machen wieder den Ansatz (3.4). Mit Hilfe der am Institut fiir Angewandte 
Mathematik der Universitat Hamburg aufgestellten Rechenanlage IBM 650 
wurden verschiedene Parameterwerte ausprobiert. Das Ergebnis ist: 
Uy = — In[1 — (1 — x?) (0,3054 + 0,0270%7)] <u,, 
ty = (4 — x*) (0,3644 + 0,0223 x? + 0,0027x4) Sm, 
u, = (1 — x*) (0,3714 + 0,0241 x? + 0,0009 x4) < ty, 
tip = — In[4 — (4 — x2) (0,3157 + 0,0807 x2)], 
| w(%) — % (x)| S 0,007. 
Nach Satz 4 besitzt die gegebene Aufgabe also eine Lésung u* mit 
ii, (x) <u*(x) Sm (2). 
3.3. Beispiel einer partiellen Differentialgleichung. Beispiel 3 ist eine Auf- 
gabe der in Nr. 3.1 behandelten Art: 
—~Au=r+awv fir OSr<1, P=x2+%, 
u=0O fir r=1 


mit einer Konstanten a. Wir versuchen, eine nichtnegative Lésung zu finden, 
und wahlen daher als Gebiet 


G: OSrsi, OSy<o. 
In diesem Gebiet hat die partielle Ableitung 
hy (x, y) =2ay 


der Funktion /(x, y) =7?+ay? das Vorzeichen der Konstanten a, so daB wir im 
Falle a0 den Satz 3, im Falle a<0 den Satz 4 anwenden kénnen. 


Fall a=1: Der Ansatz uj=6(1—7*) ergibt 
Uy = Uy + qh (1 — 72) w(r?), = w(e) = (9 — 1446 + 226?) + (9 — 140?) 0 + 407 0°. 








72 L.Cotvatz und J. ScHRODER: EinschlieBen der Lésungen von Randwertaufgaben 


Die Forderung w(0) =0 fiihrt auf b =0,063109. Hierfiir ist w(g)=>0 (OS @S1). 
Entsprechend liefert die Forderung w (1) =0 den Wert 6 =0,126330 mit w(o) <0 
(OSe@S1). up, und ty, %, seien die zu b bzw. 6 gehérenden Naherungen. Es 
ist also uw u,, 4%, und auBerdem u,<%,. Satz 3 sagt daher aus, daB die 
gegebene Aufgabe fiir a=1 eine Lésung u* besitzt, welche der Ungleichung 
US u*Su,, 

mit 

u, = (4 — 7*) [0,063 109 + 0,0621177? + 0,000111 74], 

u, = (1 — 7”) [0,064938 + 0,060948r? + 0,000443 74] 
geniigt. 

Fall a<0: Der Ansatz u)=0 ergibt 


Uy == (1 — #*) (4+ 7%) 











und 
uy = (1 -- rit +r+a — — TOA Sr +r) _ o—m. 
Der Ausdruck in der eckigen Klammer ist nichtnegativ fir 0<7<1. Im Falle 
1+a—3— 30, dh. 
—- S4s0 (3.5) 


ist daher u45=>O0=u,. Da auBerdem u,= u, gilt, sagt der Zusatz von Satz 4 aus, 
daB die gegebene Aufgabe fiir Werte a mit (3.5) eine Lésung u* besitzt, welche 
von 4, und 4, eingeschlossen wird. 


Literatur 


[1] Cotvatz, L.: Eigenwertaufgaben mit technischen Anwendungen, S. 124ff. Leipzig 
1949. 

[2] Corratz, L.: EinschlieBungssatze fiir Iteration und Relaxation. Z. angew. Math. 
Mech. 32, 76—84 (1952). 

[3] CoLtLatz, L.: Anwendungen funktionalanalytischer Methoden zur numerischen 
Berechnung der Lésungen von Differentialgleichungen. Bericht in Bull. Soc. 
math. phys. Serbie, IX, 3—4, S. 269—282 (1957). 

[4] Courant, R., u. D. HILBERT: Methoden der mathematischen Physik II, S. 239ff. 
Berlin 1937. 

[5] LicHTENSTEIN, L.: Neuere Untersuchungen der Potentialtheorie. Enz. d. math. 
Wiss. II, C, 3 (1909—1921), S.177—377, insbesondere Nr. 18, S. 242—244_ 
und Nr. 30, S. 286— 287. 

[6] MorGENSTERN, D.: Beitrage zur nichtlinearen Funktionalanalysis. Diss. T. U. 
Berlin 1952. 

[7] ScHAUDER, J.: Der Fixpunktsatz in Funktionalraumen. Stud. Math. II 1930, 
171—182. 

[8] ScHRODER, J.: Anwendung funktionalanalytischer Methoden zur numerischen 
Behandlung von Gleichungen. Z. angew. Math. Mech. 36, 260—261 (1956). 

[9] ScurépER, J.: Uber das Differenzenverfahren bei nichtlinearen Randwertauf- 
gaben I und II. Z. angew. Math. Mech. 36, 319—331, 444—445 (1956). 


Institut fiir Angewandte Mathematik 
der Universitat Hamburg 


(Eingegangen am 29. Juli 1958) 





Numerische Mathematik 1, 73—77 (1959) 


Eine Fehlerabschatzung zum Einzelschrittverfahren 
bei linearen Gleichungssystemen 


Von 
W. DUCK 


In dem folgenden Beitrag soll eine Fehlerabschatzung fiir das Iterations- 
verfahren in Einzelschritten bei linearen Gleichungssystemen angegeben werden. 
Zunachst werden die bereits bekannten Fehlerabschatzungen zum Einzelschritt- 
verfahren angefiihrt und mit der neuen Fehlerformel verglichen. Der Beweis 
der anzugebenden Fehlerabschatzung kann in einfachster Weise gefiihrt werden. 
Die verschiedenen Fehlerabschatzungen werden auf ein Beispiel angewandt. 


1. Verschiedene Fehlerabschaétzungen zum Einzelschrittverfahren. Wir 
betrachten das bereits in iterierfahiger Form vorliegende lineare Gleichungs- 
system 


4 am Ayo X* + ay, x8 + S208 Sa Ge 4 +a,,x"+a, 
x = dy, x! + ag, x? + ‘tb 6.4 oe 6 & o + a,x" +a, 
(1) | 
—1 
x” = A, 8+ Ayo xX? + a,5%°+---+4,,-1%" +a, 


mit nicht verschwindender Koeffizientendeterminante, das wir in Matrizen- 
schreibweise in der Form 


(2) . x=Axta 


schreiben kénnen. Die Matrix A zerlegen wir in die untere Dreiecksmatrix A, 
und die obere Dreiecksmatrix Ag. 


Bei der Iteration in Gesamtschritten wird dann ausgehend von einem beliebi- 
gen Anfangsvektor x, eine Folge von Vektoren nach der Vorschrift 


(3) x, =Ax, +a 


berechnet, wahrend man bei der Iteration in Einzelschritten die Vektorfolge 
entsprechend der Gleichung 


(4) x, = A,%,+Ag%1+4 
bildet. 








74 W. Dick: 


Unter der Norm einer Matrix wollen wir etwa die maximale Zeilensumme 
der Betriige der Elemente verstehen*. Dann gilt z.B. 


n n 
(5) || A |] = max D]@;,|, || Ae|] = max > |a;,| 
i kel i koit1 


und ebenso 
|*{] =max|-*. 
i 


Fiir die Abweichung des (vy + 1)-ten Naherungsvektors x,,, der Iterationsfolge 
von der exakten Lésung x des Gleichungssystems sind verschiedene Abschatzun- 
gen in der Form 


(6) || x rae %,y+1|| S o|| Xy+1 — x,|| 


angegeben worden, die wir jetzt kurz anfiihren wollen. 

Fiir das Gesamt- und Einzelschrittverfahren hat CoLLATz die gemeinsame 
Fehlerabschatzung (6) mit 

A 

(7) e= 4 
angegeben und gezeigt, daB fiir ||A||<+1 die beiden Iterationsverfahren konver- 
gieren [J, 2, 3]. ee 

Der im allgemeinen besseren Konvergenz des Einzelschrittverfahrens werden 
die von SASSENFELD angegebenen Kriterien mehr gerecht [4]. 

Kriterium I von SASSENFELD besagt, daB das Einzelschrittverfahren (4) fiir 
a<1 konvergiert, und die Fehlerabschitzung (6) mit 





i—1 n 
(8) ‘= — a = max @,, a; = 2) 4;~| + 2 | @;%| 
t k=1 k=i+1 


gilt. 

Kriterium II von SASSENFELD ist eine fiir numerische Zwecke einfachere 
Form des ersten Kriteriums. Es sichert die Konvergenz des Einzelschrittver- 
fahrens fiir B<1 und es gilt die Fehlergleichung (6) mit 


i—1 n 
(9) e=—bp B = max ;; B; = max B, 2) |4;,| + y | a; ,|- 
4 k=1 k=i+1 


e<i 
Die B,; entstehen damit durch Vergréberung der «;, indem wahrend der Rekursion 
mit dem Maximum der bereits gefundenen f, weitergerechnet wird. 


2. Die neue Fehlerabschatzung. Es soll in diesem Beitrag gezeigt werden, 
daB der Fehler bei der Iteration in Einzelschritten sich in der Form (6) abschatzen 


l4Bt, wobei 
10 = —HAall 
(10) 1 —|4II 


gesetzt werden kann. Dabei ist natiirlich vorauszusetzen, daB ||A||<1 ist. Unter 
dieser Voraussetzung konvergiert nach den Untersuchungen von COLLATz das 





* Auf die Verwendung anderer Normdefinitionen soll hier nicht eingegangen 
werden. 





Fehlerabschatzung zum Einzelschrittverfahren 75 


Einzelschrittverfahren, so daB wir keine Konvergenzuntersuchungen durch- 
zufiihren brauchen. 

Die einzelnen Fehlergleichungen zum Einzelschrittverfahren werden mit Hilfe 
der GréBen ||A,||, «, B, ||A|] gebildet, fiir die sofort die Ungleichung 


(14) |Asl|SeSfBS|Al| 


nachgewiesen werden kann. 

Die Fehlerabschatzung (6), (10) ist genauso wie die Fehlerabschatzung von 
COLLATZ numerisch auBerordentlich einfach. Da sie gegeniiber der Abschatzung 
von CoLLATz giinstigere numerische Resultate liefert, wenn ||A || =+||Al| ist, wird 
sie ihr in jedem Falle vorzuziehen sein. 

Die Fehlerformel (6), (10) zeigt genauso wie die Kriterien von SASSENFELD, 
daB im Falle eines gestaffelten Systems, bei dem ja die Matrix A, gleich der Null- 
matrix ist, das Einzelschrittverfahren die exakte Lésung in einem Schritt liefert. 
Es zeigt sich auch deutlich die Uberlegenheit des Einzelschrittverfahrens gegen- 
iiber dem Gesamtschrittverfahren, wenn ||A,|| klein gegeniiber ||A|| ist. 

Die Abschatzung (6), (10) besitzt gegeniiber den Kriterien von SASSENFELD 
zweifellos den Nachteil, daB sie an die Bedingung ||A||<1 gebunden ist. Sie 
liefert keine besseren, sondern im allgemeinen schlechtere numerische Werte als 
die Abschétzungen von SASSENFELD. Das macht sich besonders dann bemerk- 
bar, wenn ||A|| ,,.nahe bei 1“ liegt, wahrend ||A,|| relativ klein ist. Ist dagegen 
||A|| und erst recht ||A,|| klein gegeniiber 1, so werden sich numerisch nur gering- 
fiigige Unterschiede zwischen der Abschatzung (6), (10) und den Abschatzungen 
von SASSENFELD ergeben. Den besseren numerischen Ergebnissen der Formeln 
von SASSENFELD steht aber gegeniiber, daB die Fehlerformel (6), (10) numerisch 
sehr einfach ist. 

Ist ||A,||=||A||, so fallen alle angefiihrten Fehlerabschatzungen wegen (11) 
zusammen. 

3. Beweis der Fehlerabschatzung. Wir gehen zum Beweis der Fehlerformel 
von den beiden Gleichungen 

x=A,x+A,x+a 
X41 = Ap %41 + Agx, + a 


aus, die durch Subtraktion liefern 
% — X44 = Ay(% — X43) + Ag(% — 4,). 
Bezeichnen wir mit E die Einheitsmatrix. Dann ergibt sich aus der obigen 
Gleichung durch einfache Umformungen 
(E — Aj) (% — %41) = Ag (% — %41) + Ae(%41— %) 
(E — A, — Ag) (% — %,43) = Ao(%,41— %) 
(12) % — X44 = (E — A)*A,(%,51— %,)- 


Nun 14Bt sich aber bekanntlich (E — A) analog zur geometrischen Reihe ge- 
wohnlicher Zahlen in eine Matrizenreihe, die sog. Neumannsche Reihe, entwickeln 


(E—A)I=E+A+A?+-.., 








76 W. Dick: 


die fiir ||A||<1 konvergiert. Daher gilt unter Beriicksichtigung von ||A*||< || ||" 
co co 1 

(13) (2 — A)*|] Sd 4*|| Ss DIA = 1— 4] 
pu=0 u=0 


Gehen wir in (12) zu den Normbetragen iiber, so finden wir bei Beachtung von 
(13) unmittelbar die Behauptung 
A 
|| « ad +11 she llze+1— aol . 
Dammit ist die Fehlerabschatzung (6), (10) bewiesen. 


4. Ein Beweis zum Vergleich der Fehlerabschatzungen. Wir wollen jetzt 
den Beweis fiir die Aussage skizzieren, daB die Fehlerabschatzung (6), (10) nicht 
besser als die Abschatzungen von SASSENFELD ist. Wir erkennen sofort, daB 
die Fehlerabschatzung (6), (10) fiir das System (1) der Fehlerabschatzung fiir 
das System 

x} = ||A4|| x? 

x* = {||A|| — ||Ael]} «1 + [|Aell 24 
(14) i 9 Ng gee gta, Beye! 28) y 
xh = {||Al| — |]Aq|} 2*-* + [Aol] 2” 

a" = [42° 

gleichwertig ist. Zugleich sehen wir, daB die fiir das System (14) nach (8) be- 
rechneten «; gréBer oder gleich den entsprechenden a; fiir das System (1) sind. 
Die Berechnung der «a; fiir das System (14) ergibt: 


a= |All , 
~~ ||Asl| {(|[A]| mais || All) + 1} 
n—2 
_ natn ta tcl l4albe— 
X,—-1 = [4ell & (All || A oll) = I|A || 1 — (||A]| — |]A,]}) 


Ly, = [|All «,,—1- 





Mit «=«,,_, ist leicht die Ungleichung 
a — WAell —WAsil tall —W4slbe* = “WIAall 


1—a 1-4] + 14.1 M4] — TA. ~ 1 — [AI 
zu bestatigen. 
Die Richtigkeit der gemachten Aussage folgt auch sofort fiir das Kriterium II 


von SASSENFELD. 





5. Beispiel. Die angefiihrten Fehlerabschatzungen sollen noch auf ein Bei- 
spiel angewandt werden. Vorgelegt sei das lineare Gleichungssystem (2) mit 
der Matrix 
rT O 0,01 0,04 0 0,02 ] 
0,40 O 0,02 0,01 0 
A=1]0,10 0,35 0 0 0,03 
0 0,06 0,40 0 0,04 








10,10 O 0,20 0 0 J 








Fehlerabschatzung zum Einzelschrittverfahren 77 


Nach (5), (8), (9) berechnen wir: 


|| 4, || = max (0,04; 0,03; 0,03; 0,04) = 0,04 
||A || = max (0,04; 0,43; 0,48; 0,50; 0,30) = 0,50 
a, = 0,04 
% = 0,40 - 0,04 + 0,03 = 0,046 
% = 0,10 - 0,04 + 0,35 - 0,046 + 0,03 = 0,6501 
%4 = 0,06 - 0,046 + 0,40 - 0,0501 + 0,04 = 0,0628 
a, = 0,10-0,04 + 0,20-0,0501 = 0,01402 a = max a; = 0,0628 
B, = 0,04 
B. = 0,40 - 0,04 + 0,03 = 0,046 
B; = 0,45 - 0,046 + 0,03 = 0,0507 
By = 0,46 - 0,0507 + 0,04 = 0,063 322 
B; = 0,30 - 0,063 322 = 0,019 B = max B; = 0,063 322 


Die Faktoren @ der Fehlerformel (6) stellen wir fiir die einzelnen Fehlerabschat- 
zungen in einer Tabelle zusammen: 





Fehlerabschatzung nach 




















CoLLatTz SASSENFELD I SASSENFELD II (6), (10) 
[4] a B A,|| 
e= = 1 == = 0,0671 = ——= 0,0677 je = = 0,08 
1—]4]|~ "| °" t=- eT e* T= 14 
Literatur 


(1} Cotvatz, L.: Fehlerabschatzung fiir das Iterationsverfahren zur Auflésung linearer 
Gleichungssysteme. Z. angew. Math. Mech. 22, 357—361 (1942). 

[2] WEISSINGER, J.: Zur Theorie und Anwendung des Iterationsverfahrens. Mathem. 
Nachr. 8, 193—212 (1952). 

[3] CoLtiatz, L.: Einige Anwendungen funktionalanalytischer Methoden in der prak- 
tischen Analysis. ZAMP 4, 327—357 (1953). 

[4] SASSENFELD, H.: Ein hinreichendes Konvergenzkriterium und eine Fehlerab- 
schaitzung fiir die Iteration in Einzelschritten bei linearen Gleichungen. 
Z. angew. Math. Mech. 31, 92—94 (1951). 


Dresden A 27 
Regensburger StraBe 21 


(Eingegangen am 7. Januar 1959) 


Numer. Math. Bd. 1 6 








Numerische Mathematik, 1, 78—89 (1959) 


The radius of univalence of the error function* 
By 
ERWIN KREYSZIG and JOHN Topp 


0. Introduction 


We shall determine the radius of univalence 9 of the error function, which 
we take in the following normalization**, 


ert s = fexp(—#) dt= x )*22"tt/(2m +1) n! =z — (28/3) + 


The radius of univalence is the radius of the largest open circular disk, |z|<o, 
in which erf z is schlicht. Some lower bounds for g have been obtained previously, 
namely: 
{3 (n® + 1)4— 1}4 = 1.07..., 
(2/2) =1.25..., 
the largest positive root R of the equation 
(4R4— 1)t— arctan(4R*—1)t =n, R=1.51.... (0.1) 


These bounds were obtained by different, rather general methods, by NEHARI [/], 
Rocozin [2], and READE [3]. We recover, incidentally, by elementary means, 
the bounds of RoGozin and READE. Our methods are based on special properties 
of erf z, aid were suggested by a detailed study of actual numerical values of 
erf z, which were computed on the IBM 704 at the National Bureau of Standards, 
by ELLEN BRAUER and J. C. GAGER and on the Datatron 205 at the California 
Institute of Technology. 

This paper consists of three parts. In the first two we present different proofs 
of the following theorem. 

Theorem. The radius of univalence of erf z is the minimum distance from the 
origin, of points not on the x-axis, for which erf z is real. 

Both proofs have a constructive character and can be used to obtain bounds 
for 9. With the second proof we include a description of some hand calculations 
which lead to the following inequalities 


1.5746 <9 <1.5858. 


* An announcement of the results of this paper appeared in the Bull. Amer. Math. 
Soc. 64, 363—364 (1958). The work described here was carried out in part with the 
support of the Office of Naval Research. 

** In a paper to appear in the Pacific Journ. Math. we have shown that the 





Zz 
radius of univalence of E(z) = exp(z*) f exp(— /*) dt is 0.924 13887. 
0 





Radius of univalence of the error function 79 


In the third part of the paper we describe some calculations, along the lines 
of the first proof, which use the more elaborate numerical results to which we 
have already referred. These suggest that a seven-decimal value of 0 is 


o = 1.5748376. 


Before beginning the separate proofs of our theorem, we observe that if z 
is a point not on the x-axis at which the minimum distance d is attained, then 
Z%o+ 2 and 

erf 2, = erf 2) = erf zy. 


Thus the circle |z| =d maps into a curve with a double point and so g<d. We 
can complete the proof by showing that erf z is schlicht in |z|<d, and for this 
it will be sufficient to deal with the first quadrant because of the reflection prop- 
erties of erf z, 

erf(— z) = —erfz, erfz =erfz. 


1. First proof 


The first proof is based on a.study of the maps J? in the w=u-+iv plane 
of the arcs y,:z=re'®, OS 932. We shall show that there is a 9>0 such that 
I, has the form indicated on 
the right-hand side of Fig.1. 74 4 
For |z|<0, 0<8<#7, it will 
be seen that erf z is not real. 
Thus @ is the minimum di- 
stance referred to in the 
theorem. We complete the 
proof as follows. Let y* de- 
note the closed curve con- 
sisting of OS xSo, (y=0); 


£0 *£ 
<0 
et 


#d 





A Iy 
IzI-9=/57.. 







IZI=%=* 70... 














Y,; @E=y=O, (x =0) and let Izin Poti. 

I’* denote its map. We shall FR AR Re lo-]G Ip I Rh 4 
show that as z describes y* z=x+ly plane w-=u+iv plane 

in the positive direction, erfz Fig. 1. Not to scale 


describes J** once, and that 

I* is simple. It follows, since erf z is regular everywhere that erf z gives a one- 
to-one and conformal mapping of the interior of y* onto the interior of /™* 
(J. E. LirTLEwoop [8)). 

Instead of appealing to this basic theorem in conformal mapping, it would 
be possible to complete the proof in an elementary way, by proving directly that 
erf z,-terf z, for z, and z, in the interior of y*, along the lines indicated in the 
second proof. 


1.1. Preliminaries. a) We have, denoting partial derivatives by subscripts, 


Ug + iv,=ir(u,+iv,) = ire’ exp(— z*) 
= irexp(— r* cos 28) [cos(r? sin 20 — #) — isin(r? sin 20 — 8)], 
so that 
Vp = r exp(— 7? cos 2%) cos (r? sin 20 — #). (1.1.1) 
6* 








80 Erwin Kreyszic and Joun Topp: 


If vs=0, we must have x 
cos(7?sin20—#8)=0, rsin20—%&=3(2m-+1) a, m integral. 
Similarly, if 4%,=0, we must have 
sin(?sin20—#)=0, rsin20?—d=mnz, m integral. 
b) Consider now the indefinite integral 
f exp (— @?) dt 


evaluated along a curve on which vg=0. We find, using the results just obtained, 


Zz 
3 f exp(—#) at 
0 a 
= § f exp {— (> + = (2m +1) n) cosec 2a(cos 2a + 7 sin 2a) (ie +ir) e*da 
o 
m 1 d 
a +1 fexp{— (« + £(2m +1) 2) cot 2a} 57 da 
’ 
m 1 
= (— 41)" f exp {— (« +% (2m + 1)) cot 2a} dr. (4.1.2) 
In a similar way, if we integrate along a curve on which u,=0, we obtain 


¥ f exp( — ft?) dt = fexpt— (x + m zx) cot 20} 4 da 
~ 4)" fexp{— (a+ mz) cot 2a}dr. (1.1.3) 
c) We shall prove that 0 =v (/x, $2) is non-positive. We have 
Vix (1+4) 


=3 f  exp(—)dt 
0 


2 


and in this integral we can choose the path to be from 0 to jax along the real 
axis and then from |/¢2 to Vix (1-+72) along a parallel to the imaginary axis. 
It is clear that the first part is entirely real so that 
Vix 
j6=3 f exp(—ta+y*— 2niylidy 
0 
Vin 
=exp(— 42) f moi cos(/2a 9) dy 
0 


= = (1/|/27) exp(— $2) Jexp (2/22) — exp ((a — t)?/2m) costdtSO. (1.1.4) 


1.2. The behavior of the curves I}. First phase. By conformality, for all fixed 7, 
u(r, 8) begins by increasing from zero, as # increases from zero. Indeed, for all 
sufficiently small 7, v(r,#) increases steadily with @ when 0<S9<#z. This 
fact is clear from (1.1.1) and the behavior of f =7? sin 20 —9@, which is indicated 
in Fig.2. For rS7y=1/ /2, r?>sin20@—#@ decreases steadily. For r>7%, 





Radius of univalence of the error function 81 


r2 sin 20—@ begins by increasing and has a maximum when cos 20 =$r~. 
The value of this maximum is 


1 -$ (2 o- 
(4 — 3) — 3 cost (27%) 
and this increases from zero at r=r,. This maximum is $2 for 
y=R=1.51... 


where R is the largest positive root of the equation (0.1). For any fixed r<R, 
then, v increases steadily with #,0<@<42. This, then, is a lower bound for 0. 
It is, in fact, the lower bound obtained by READE [3]. 

The lower bound \ix obtained by 
RocGozin [2] can be obtained by noting 
that the maximum of 7? sin 20—# cer- 
tainly does not exceed 7? so that there is 
certainly univalence of 7?< $2. 


1.3. The behavior of the curves I}. 
Second phase. We refer back to Fig. 2. 
For r>R, but sufficiently small, there 
are exactly two values of #, say #, and 
#,, for which vg=0. Although the graph 
of / has only two intersections with the 
line $2, intersections with } (2 + 1) 2 give 
rise to zeros of vg. However, we shall 
see below that the range of r in which we 
are interested is bounded above by \/x, 
and so, certainly, f=r? sin 20—0<a. 

We now observe that v decreases in 
the range #,50S%,. This follows from 
the representation (1.1.1) since in that 
range we have 


4 f-r?sin 20-8 





a>rsin20 —8>32, 


cos (r? sin 20 — #) <0 











Fig. 2 


for relevant 7, 1.e., R<r< x. 
We next observe that as 7 increases, both u(r, #,) and v(r, 8) decrease. We 
have 


v(r’, 01) — v(r, 0) =3 f exp(— A) dt. 


The path of integration is at our disposal and we choose the path on which 
Ug = 0. Using the representation (1.1.2), noting that m=O, we find 


u(r’, i) — v(r, 0) = — fexp{— (8+ 32) cot 20} dr. 


Since the integrand is invariably positive, it is clear that u(r, #,) decreases as7 
increases. The same argument shows that v(7, #,) decreases as r increases. 








82 ErRwIn Kreyszic and JoHN Topp: 


What we have now achieved is a proof that v(r, #,), which is certainly positive 
for r=R, 0,=0,(R) =0,(R) =0*, decreases as ry increases from R. The result 
(1.1.4) shows that there is a least y=>R for which v(r, 8,) =0. We denote this 
by @, and we shall prove that @ is the radius of univalence. From (1.1.4) we 
have o< \z. 

1.4. The behavior of the curve I,*. We have to show this is a simple curve, 
described exactly once as z describes y*. We denote the points @ and io by P, 
and P, and the points ge'* and ge'* by PB, and BP; the map cf P. by w=erf z 
is denoted by T; (see Fig. 1). 

Denote by #, the first positive zero of sin(o? sin 20—#). We denote oe*® 
by BP, and its map bv 73. In virtue of our computation (1.1.4), we have 


=2> 03> Bp. 
It is clear that 


’ 
u = f oexp(— oe? cos 28) sin(o* sin 28 — 3) dd 
0 


+ fexp (— #) dt 
0 


is strictly increasing for OS @S4%,, since the first integrand is positive. From this it 
follows, remembering that erf x is an increasing function of x, that erf z, + erf z, 
for z,, 2, on the arcOR PPB. 


We note also that u+0 in the range #,<0<4$z. For, integrating along a 
radius z=Te'?, OX tSoe where ¢ is fixed, 9,5 9<2, we have 


e 
u = f exp(— t* cos 2g) cos(t* sin2 y — g) dt. 
0 


In the present circumstances, t? sin 2y—g increases from —g for t=O to 
o? sin 2y —, which lies between 0 and — $2 [cf. Fig. 2]. Hence the integrand 
is positive. 
Next consider the behavior of v for z on the arc P,P,. Since 
f) 
v = f oexp(— e? cos 2a) cos (0? sin 2 — a) da 

0 
is strictly increasing for 09,5042, the integrand being positive, it follows that 
erf z,+ erfz, for z,,z. on PP. 


On the arc P,O, erfz is pure imaginary, with v decreasing steadily: 


y 
v=fe"dt OSySo. 
0 


There can therefore be no intersection of P,O and P,P, nor of P,O and OP, P,P,, 
since, as we have already noted, w+0 for 0<#<#@, and for 0,50< $2. 

It is now clear that the only possibility of a self-intersection in J>* occurs 
for points z,, 2, on the arcs P,P, P, and P,P, respectively. We shall show that 
this is impossible because J; is above T, i.e. that v(z,), z, on AAA, is less than 
v (24), 2 on PyP,. 





Radius of univalence of the error function 83 


This is done as follows. For r=R, since v is steadily increasing 
v(8,(R)) >v (8, (R)). 


We have already noted that v (#, (7)) is a decreasing function of 7. It will therefore 
be sufficient to show that v(d5 (r)) is an increasing function of 7. To see this we 
proceed as in § 1.3, only integrating this time along the curve on which u,=0. 
Using the representation (1.1.3), remembering that we have m=O because of 
(1.1.4), and using the fact that as 7 increases #, increases, we have 


v(r’, 3) — v(r, 9) > O. 


2. Second proof 


Our previous consideration was based on the properties of the curves |z| = 
constant in the w-plane. We shall now demonstrate that the consideration of the 
curves arg erf z=constant in the z-plane leads to another characterization and 
bounds of o. 


2.1. The differential equation for the curves arg erf z=constant. Let 
w= Rexp(?#) = f(z) 


be an analytic function regular in a domain D of the z-plane. Then the curves 
in D corresponding to # = constant satisfy the differential equation 
dy 


— = tan(? — a), (2.1) 


where « =arg /’(z). For the error function this equation takes the form 


dy 


7 = tan(2*y + #). (2.2) 


In particular, the curves 3 erf z = 0 in the z-plane are solutions of the equation 


dy _ 

-_ =tan2xy. (2.3) 
2.2. The characterization of 0. Consider the curves 3 erf z=0 in Q,, the first 

quadrant. Let C denote that curve which has its distance from the origin a 

minimum. We prove first that C lies in the domain B between the two hyperbolas 


H,: xy=ia, Hy: xy=4#zx. (2.4) 


Integrating parallel to the coordinate axes we have 
x y y 
erf z = fexp(— #2) dt + exp(— x?) fexp@sin2xtdt +iexp(— x*) fexpfcos2xtdt. 
0 0 0 


Let A be the domain bounded by H, and the positive coordinate axes. In A 
cos 2xy=0 and therefore Jerfz>0. In B we have cos 2xy<0. Since exp y? 
increases steadily with y, we have Qerf(x)»+7y) =O for exactly one y in the 
interval (2/4 x9)<y<(a/2%9), where x,>0 is arbitrary but fixed. This proves 
that C lies in B. 








84 ERWIN Kreyszic and JoHN Topp: 


We now prove that for any z,z, in D=AWUH,UB we have erf z+erf %. 
Because of the shape of D we can integrate along a path consisting of two 
segments, S,, S,, parallel to the coordinate axes. Let z,=%,+7y,. Then 


x 
a(z) =erfz — erfz,= exp y? f exp(— #) cos 2ty, dt + exp(— x?) fexp sin 2xtdt 
x vn 
x y 
—texp y? f exp(— @) sin 2t y, dt + iexp(— x2) f expt cos 2xtdt. 
1 nn 
On the horizontal segment S, the function a(z), considered as a function of x 
behaves as follows. Ja(z) is a steadily decreasing function on the entire segment 
; S,. The real part Ra (z) increases steadily 
\ on ANS, and decreases steadily on 
\‘%e BoS,. On the vertical segment, Ra(z), 
| ‘ considered as a function of y, increases 
y \ steadily; Ya(z) increases steadily on 
\ S,OA and decreases steadily on S,°B. 
at \ This shows that the position of the 
\ \ points z, and z in D plays a certain role 
\ J \ and leads to a number of different cases. 
\ In each case we can find a path from z, 
\ BB \ to z consisting of segments parallel to 
gz ~ the coordinate axes and such that 
ha, \ [Sve o Ra(z) or Ja(z) isa monotone function 
on the entire path of integration. For 
example, %ia(z) increases steadily on 
Sra Sve because S,,°0B=0 (Fig. 3). 
Similarly, Ya(z) decreases steadily on 
Sip Sua Finally, Ra (z) decreases steadily 
on Sy41USpyUSpy2 because S,,,.A =0 
0 ] aoab » and along the two vertical segments we 
Fig. 3 integrate in the negative y-direction. 
Note that in this case, the path z,z,2 does 
not lie in D and on the path z,z,z neither the real nor the imaginary part of erf z 
is monotone. This case actually is the only one in which we need more than two 
segments altogether. The other cases may be considered in a similar fashion. 
This shows that erfz has different values at any two different points in D. 
Hence 9 =d, and the Theorem is proved. 
2.3. Bounds for 9. Since the distance of B from the origin is \/x/2 and since C 
intersects the line y = x in B we conclude that 


\2zl2<0< zx. (2.5) 

We note that the lower bound obtained here is that obtained otherwise by 

Rocozin [2]. The upper bound was also obtained in the course of our first proof. 
We shall now derive some better bounds. We have 














ryt ’ . 
erf (r 2) =fe*dt= yi feat 
0 0 





Radius of univalence of the error function 85 


and thus 
Serf (r Vi) = 24 [C(r) — S(”)] 


where 
C(r) = f cos tat, S(r) = fsineeat 
are the Fresnel integrals. Hence the curve C intersects the line y = x at the point 
RB: X= Yo=1o/ V2 where 7, is the smallest positive root of the real equation 
C(r) = S(r). 
We thus obtain the following upper bound: 


OS. 
The numerical value of 75: 
%o = 1.5858... 


was obtained as a by-product of the Datatron program for erf z referred to in 
§ 3 below; this value was checked by comparison with standard tables of the 
Fresnel integrals. Using this value of 7), we shall derive a rather accurate lower 
bound for 9. We shall prove that 


o>k =1.5746... (2.6) 


where & is the distance between the origin and the circle of curvature K of C 
at PB. 
The tangent T to C at PB, can be represented in the form 


y=ax+b, a=y'(x%)=tanrw, b=x,(1—a), 
as follows from (2.3). It thus has the distance 
oi te 
sin (rf — *)| 


from the origin. Calculation shows that 


A =1.5658... 


A=% 





We first prove that 9= A. The isoclines of (2.3) are hyperbolas xy =c =constant. 
In B [cf. (2.4)], y’ varies from — co (along H,) to 0 (along H,). The hyperbola 
H,: xy=*/2 passes through P,. It intersects 7 at PB, and at Py: x = — x/a, 
y=—ay,. Let P, denote the left-hand point of intersection between H, and 7. 
Let S denote the segment P,P,. Note that the abscissa of P, is greater than 
that of the point of intersection P, between H, and the circle |z| =7). We prove 
that C cannot have a point whose distance from the origin is smaller than A. 
It sufficies to show that the arc C* of C corresponding to x(R,)<*< x(P,) does 
not have points below S. Through each point in B there passes precisely one 
solution of (2.1), as follows from familiar existence and uniqueness theorems, 
cf. E. KAMKE [6]. We prove that any solution of (2.1) having points below S 
cannot pass through P,. Let P be any point in the domain B, bounded by por- 
tions of H,, x = %», and S, lying to the left of x =x). Let yp(x) denote the solu- 








86 Erwin Kreyszic and JoHN Topp: 


tion of (2.1) through P. Now |y'(P’)|>|y’(A)| and y’(P’)<0 for all points P’ 
in B,. Hence for x(P)S*Sx(A) the solution y,(x) must lie below the parallel 
to S through P. Therefore yp(x) cannot pass through A; that is, C* cannot 
have points P, x(P)<.x(P,), below S. Furthermore, if C* would have points 
Q, x(Q)>x(BP,) below S some of these points must lie in the domain B, bounded 
by portions of Hy and S. Let yg(x) be the solution of (2.1) through any point 
Ps Bh N Q€B,. Now |y'(Q’)|<|y(B)| and ¥'(Q’)<o 
I “VN {ON2 for all points Q’ in B,. Hence, as before, yg (x) 
_—-> 7 cannot pass through P,; that is, C* has no points 
\ Q, x(Q)>x(P) below S. We have shown that 
the distance of C from the origin is at least A. 
We shall now establish (2.6). From (2.3) it 
follows that the curvature of Cat P is 









sin (%8 + = ] ' 


and numerical calculation yields 











Xo = 0.5009 eee 
P a 7 TG An elementary consideration shows that the 
Fe distance of K from the origin is 


Fig. 4 
k = (wp? + 2% '4+73)'— x9", 
and numerical calculation yields the value of k& given in (2.6). Let P, denote 
the left-hand point of intersection of T and the circle |z| =k, and let 0,€ K be 
such that x(Q,) =x(P,). On the arc Q,P, of K the slope of the tangent to K 
is larger (that is, less negative) than the value of y’ as given by (2.3) at those 
points of K. Hence the corresponding arc of C lies inside K, and thus C cannot 
have points whose distance from the origin is smaller than k. This proves (2.6), 


We have obtained that 
1.5746 < 0 < 1.5858. (2.7) 


It is clear that instead of using the numerical value of 7) we may derive 
substantially similar results using bounds of 7). For instance, to get a lower 


bound for 7, we consider 
r 


g(r) = 2-4 (C(r) — S(”)) = f sin ($ —#) dt. 
0 
For 0<t<|/7/2 the integrand is positive, and for V2/2<t<5n/2 it is negative. 
If b and L(r) are such that 
i aa 
g (7) e( Ie 


e( U) >, < Lir) 
L(r) =b (2.8) 








and the equation 


has a real solution, the smallest solution is a lower bound of 75. An upper bound 
of 7, can be obtained by similar argument. It is interesting to note that already 





Radius of univalence of the error function 87 


simple approximations of the curve of the integrand of g(r) by portions of tan- 
gents and chords lead to close bounds, and the corresponding bounds of obtained 
by the preceding argument are of the same order of accuracy as the bounds of 75. 


3. The computation of @ 


We shall indicate how the two methods of proof of our Theorem can be used 
to compute og, but we shall carry through the details in the first method only. 
We shall content ourselves with a reasonable, practical computation which will 
lead to a plausible 7-decimal value for g. A copy of the basic numerical material 
has been deposited in the files of the periodical Mathematics Tables and Other 
Aids to Computation. 

3.1. First method. Using the IBM 704 at the National Bureau of Standards, 
ELLEN BRAUER and JANE C. GAGER first prepared tables of u,v to 9D for r= 
0(0.1) 2, ®=0°(1°) 90°. These values were computed by summing an adequate 
number of terms of the power series and using 10D tables of sin #, cos #. These 
values were spot-checked by comparison with the: Russian tables [5, 16] and 
manuscript tables computed at the National Bureau of Standards by F. J. Stock- 
MAL and W. F. CanHILL. After this preliminary calculations, values were obtained 
for ry =1.5(0.01) 1.6. Then, estimates of the corresponding minima v(r, 8, (7) 
were obtained using standard techniques (SALZER [7]). From these values, inverse 
interpolation gave an estimate for 9. As a first check we computed the following 
values of 7 


¥ = 1.5748375 v= 0.000000134 
@ = 49.97° | r = 1.5748376 v = — 0.000000007 
¥ = 1.5748377 v = —0.000000164. 


We next computed the following additional values: 


8 = 49.96° v= 0.000000030 
r =1.5748376 | 8=s097 v = —0.000000007 
& = 49.98° v=  0.000000075. 
From this we conclude that 
o = 1.5748376. 


The essential part of these calculations were repeated on the Datatron 205, 
at the California Institute of Technology. Specifically, using flcating point arith- 
metic, carrying eight significant figures, we computed v(7, #) for r=1.5748366 
(10-7) 1.5748385 in the critical range of #. The program was written only for 
an integral number of degrees and the later part of our calculation was rather 
different from that described above. We used the values of v for r =1.5748381, 
& = 44° (1°) 55° which we give to 7D below. Again using SALZER’s formulae we 
found that the minimum of v(1.5748381, #) occurred at # = 49.9687° and, inter- 
polating, using EVERETT’s method with modified second differences we find 


v(1.5748381, 8) = — 0.0000007. 


Now we have already noted that 


v=— f exp{— (8 + $2) cot 20}dr 








88 ERWIN Kreyszic and JOHN Topp: 


where the integration is along the curve on which 0v/@# is zero. Hence 


te — 1 meee a 

By =~ EXPY (0 + 5%) cot20} 1.5 for @=9%. 

The appropriate correction in 7 is therefore about — 0.0000005 and we therefore 
recover the value 


0 = 1.5748376. 





0 v (1.574. 8381, 8) 





44° 0.014 3180 

45° 0.0108518 

46° 0.007 5701 Sixth differences are negligible and the modified 
47 0.004 6300 second differences corresponding to # = 49° and # = 50° 
48° 0.002 2245 

49° | 0.0005875 
50° | —0.0000001 0.0010399 and 0.0013715 
51° 0.000 7944 

52° 0.003 3614 

53° 0.008 1545 

54° 0.015 6945 

$5” 0.026 5741 





3.2. Second Method. Another way of obtaining @ by computation is the 
numerical integration of the differential equation (2.3) starting from the point R: 
X—e=Vo="el /2. This approach is rather simple because the point of C at minimum 
distance from the origin lies close to Pj. A crude calculation, using the Runge- 
Kutta Method, working at interval 0.01, to 6D, gives 9 =1.57484. 


References 


We have included here, for completcness, some references [9— 18] on the quantita- 
tive behavior of erf z, which are not referred to directly in the text. 


[1] Newart, Z.: The Schwarzian derivative and schlicht functions. Bull. Amer. 
Math. Soc. 55, 545—551 (1949). { 

[2] Rocozrn, V. S.: Two sufficient conditions for the univalence of a mapping. 
Rostov Gos. Univ. Uc. Zap. Fiz.-Mat. Fak. 32, 135—137 (1955). 

[3] Reape, M. O.: On Umezawa’s criteria for univalence. J. Math. Soc. Japan 9, 
234 — 238 (1957). 


Zz 
[4] Reape, M. O.: A radius of univalence for f e—*d&. Preliminary Report. Bull. 
0 


Amer. Math. Soc. 63, 193 (1957). 
[5] Fappreva, V.N., and N.N. Terentiev: Tablicy znacenii funkcii w(z) = 


Zz 
/ 


ge oo ’ | eat) ot kompleksnogo argumenta. Moscow 1954. 
n 


0 

[6] KamxeE, E.: Differentialgleichungen reeller Funktionen, 2. Aufl. Leipzig 1952. 

[7] Savzer, H. E.: Formulas for finding the argument for which a function has a 
given derivative. Math. Tables and Other Aids to Computation 5, 213—215 
(1951). 

[8] LirrLEwoop, J. E.: Lectures on the theory of functions, p. 121. Oxford 1944. 

[9] WuiTEHEAD, S.: An approximate method for calculating heat flow in an infinite 
medium heated by a cylinder. Proc. Phys. Soc. 56, 357—366 (1944). 

















Radius of univalence of the error function 89 


[10] LatsLe, T.: Héhenkarte des Fehlerintegrals. Z. angew. Math. Phys. 2, 484—487 
(1951). 

{11] Savzer, H. E.: Complex zeros of the error function. J. Franklin Institute 260, 
209—211 (1955). 


co 
[12] CLemmow, P.C., and C. M. Munrorp: A table of |/}2e!e'? f e—'2#?@A for 


e 
complex values of g. Phil. Trans. Royal Soc. London A 245, 189—211 (1952). 

[13] HorNeER, F.: A table of a function used in radio-propagation theory. Proc. 
Institute Electrical Engineers C 102, 134—137 (1955). 

{14] Savzer, H. E.: Formulas for calculating the error function of a complex variable. 
Math. Tables and Other Aids to cae tae 5, 67—70 (1951). 


[15] Rosser, J. B.: Theory and application of fe “dx and fe- pry* dy fe-*ds, 
Part I. Methods of Computation. Senshi, Y. 1948. 


[16] Karpov, K. A.: Tablicy funkcii w(z) =e-"f e“dx v kompleksnoi oblasti. 
Moscow 1956. ° 


Zz 
[17] Karpov, K. A.: Tablicy funkcii F(z) = f e**dx v kompleksnoi oblasti. Moscow 
1958. 0 
[18] Later, F.: Diplomarbeit, Darmstadt 1943*. 


Ohio State University 
Columbus, Ohio 


and 


California Institute of Technology 
Pasadena, California 


(Receivea October 2, 1958) 











* Professor A. WALTHER has informed us that this thesis, prepared under his 
direction, which we have not yet seen, and later unpublished investigations by the 
author, are concerned with the behavior of erf z in the complex plane. 








Numerische Mathematik, 1, 90— 109 (1959) 


Uber die Anwendung von Binarmodellen in der Theorie 
der Charaktere der symmetrischen Gruppen* 


Von 


STIG COMET 


Um die Berechnung von den Charakteren der symmetrischen Gruppen mit 
Hilfe der elektronischen Rechenmaschine BESK zu erleichtern, wurde friiher 
vom Verf. eine binare Schreibweise fiir Partitionen eingefiihrt. Diese laBt sich 
auch mit Vorteil fiir theoretische Zwecke anwenden, wie in der vorliegenden 
Arbeit gezeigt wird. Eine Reihe von Formeln und Satzen, die mit der Berechnung 
der betreffenden Charaktere zu tun haben, werden mittels dieser bindren Methode 
aus den einfachsten Voraussetzungen hergeleitet. Die Theorie wird schlieBlich 
einer Formel von I. SCHUR angekniipft. 


1. Die Bildung von Binarmodellen 


Es sei M eine endliche oder abzahlbar unendliche Menge von Objekten, unter 
denen wir gewisse, in endlicher Anzahl, auswahlen. Namentlich bei einer Daten- 
verarbeitung, wo gewisse Eigenschaften der soeben ausgewahlten Objekte etwa 
mit Hilfe einer digitalen Rechenmaschine studiert werden sollen, ist es notwendig, 
diese ausgewahlte Teilmenge, M,, numerisch identifizieren zu kénnen. Zu diesem 
Zweck ist meistens ausreichend, daB man die Anwesenheit oder Abwesenheit der 
Objekte angibt, denn ihre iibrigen Eigenschaften kénnen dann durch Hinweis 
auf einen ,,Speicher“‘ oder ein ,,Lexikon“ gefunden werden. Zur betreffenden 
Angabe eignen sich besonders die beiden Symbole J und 0, und wenn jedem der 
Objekte von M eine Stelle zugeordnet wird, kann die ausgewahlte Teilmenge M, 
durch eine Reihe von Einsen und Nullen eindeutig bezeichnet werden. Im Falle, 
wo M endlich ist, besteht diese Reihe aus einer endlichen Anzahl von Ziffern 
und sie kann als Binarmodell von M, benutzt werden. Um auch dem Falle einer 
abzahlbar unendlichen Menge M zu begegnen, fiihren wir die folgende Defini- 
tion ein: 

Die Objekte von M werden von 0 aus numeriert. In der binaren Schreibweise 
von ganzen Zahlen wird demjenigen Objekt, das die Nummer 7 besitzt, die zu 
2’ hérende Stelle zugeordnet. Die endliche Teilmenge M, bestehe aus den Ob- 
jekten mit den Nummern «,, %, ..., %,, die alle untereinander verschieden sind. 
Dann wird die binar geschriebene Zahl 


aq = Oh 4 Ot... 4 2om (1) 


das Binarmodell der Teilmenge M, genannt. 





* Herrn Prof. Dr. A. WALTHER, Darmstadt, zum 60. Geburtstag. 





Uber die Anwendung von Binarmodellen 91 


Eine allgemeinere Form der Definition wird erhalten, wenn dem Objekt mit 
der Nummer j die Stelle 24/+” zugeordnet wird (wu und » =feste, ganze Zahlen, 
+0). So fiihrt z.B. die Wahl « = — J, »=—1J auf ein Binarmodell, das aus 
binadr geschriebenen, echten Briichen besteht. Man kann durch geeignete Wahl 
von uw und y eine Anpassung des Binarmodells an die vorhandene Rechenmaschine 
bewirken. Wir wollen hier die soeben gegebene Definition (1), wo u=J, »=0, 
behalten. 

2. Beispiele 

a) Die Objekte von M seien die Potenzen einer unbestimmten GréBe x mit 
ganzzahligen, nicht-negativen Exponenten. Wenn diese Exponenten zu Num- 
mern der Objekte gewahlt werden, ist die in (1) geschriebene Zahl a das Binar- 
modell der Menge 

M, = (x, z™,..., 2%). 
Es sei bemerkt, daB eine Rechenvorschrift gegeben werden kann, durch welche 


die Elemente von M, eine GréBe / bestimmen. Dann gehért zu jedem Wert 
von a ein Wert von /. Als Beispiel kann das Polynom 


f = 2% + x +... + 9m 
dienen. 

b) Im nachsten Beispiel sei das der Nummer 7(=0) entsprechende Objekt 
von M eine Spalte (d.h. eine Matrix mit einer Spalte), die aus den Potenzen 
xi, xh, ..., x}, von m Unbestimmten x,, x2, ..., x, besteht. Dann ist a das Binar- 
modell einer Menge M, von Spalten, d.h. sogar einer Matrix: 


Ry 2"... 24" 


xe XG"... X4" 
M, = * |. (2) 


Auch hier kénnen Vorschriften gegeben werden, um gewisse GréBen / zu berech- 
nen, die dann durch a spezifiziert erscheinen. Als wichtigstes Beispiel erwahnen 
wir die Bildung einer Determinante m-ten Grades, wenn n= ™m, aus den m ersten 
Zeilen der Matrix (2), vorlaufig ohne Riicksicht auf das Vorzeichen. Der Absolut- 
wert der Determinante 


2... XE" 
nse ene (3) 
oe 


wird also einfach durch die binare Zahl (1) spezifiziert. 


Das angefiihrte Beispiel b) wird spater in diesem Aufsatz eine Anwendung 
finden. 


3. Elementare Operationen auf Binarmodelle 
Der Kiirze halber wollen wir folgende Schreibweise verwenden: 


: 


wo « und # nicht-negative, ganze Zahlen bedeuten. 


= 2 — 2, (4) 











92 Stic CoMET: 


Es sei a die in (1) geschriebene Zahl. Dann geben wir folgende Definition: 
Die Zahl 
sof 
m 


wird dann, und nur dann, eine Modifikation von a genannt, wenn « einem der 
in (1) vorkommenden Exponenten gleich ist, wahrend £ von allen diesen Expo- 
nenten verschieden ist. 

Die aus a durch eine Modifikation gemaB dieser Definition entstandene Zahl a’ 
ist das Binirmodell einer Menge M;, die aus M, erhalten wird, indem man das 
Objekt der Nummer « mit dem der Nummer  ersetzt. Demnuach enthalt M; 
ebenso viele Objekte wie M,, ebenso wie a’ und a gleich viele Einsen haben. 

Wenn zwei Binarmodelle, a und 6, dieselbe Anzahl (=m) von Einsen enthalten, 
kann irgend eines von ihnen durch wiederholte Modifikationen aus dem anderen 


erhalten werden. Zum Beweis nehmen wir an, daB 2%, 2%, ..., 2% diejenigen | 
Einsen von a sind, die an solchen Stellen stehen, wo b Nullen hat. Wegen der 
Voraussetzung muB b die gleiche Anzahl von Einsen, 2°, 2, ..., 28, an solchen 


Stellen besitzen, wo a Nullen hat. Nach der obigen Definition sind also folgende 
Modifikationen mdglich: 











gi mg (Pe: at mat + |Pel;. b= ann + (Ph 
ay Xe Xp 
welche wir in eine Gleichung zusammenfassen: 
baa [lh + bid rr By ; 
ay Xe Xp 











Die angegebene ,,Kette“‘ von Modifikationen ist keineswegs die einzige, die a 
in b iiberfiihrt. Erstens kénnen die £,, ..., 8, mit den «,, .»., «, in einer anderen 
Reihenfolge kombiniert werden. Zweitens kann eine Modifikation in zwei (oder 
mehrere) zerlegt werden, z. B. 

| 


a 7 2 Ly 


wo y von allen a, und f; verschieden ist. SchlieBlich kann, wenn 2*= 2° eine 
Eins bedeutet, die an derselben Stelle in a wie in 6 steht, eine Modifikation der 
wae . : 
R % X 
Beim Lesen der aus Modifikationen gebildeten Summenausdriicke beachte 
man die Reihenfolge der Glieder. Es sollen immer die Modifikationen der Reihe 
nach von links nach rechts ausgefiihrt werden. 





Form ersetzt werden. 














4. Das Gewicht eines Binarmodells 
Mit »; bezeichnen wir die Gesamtanzahl derjenigen Nullen, die in der expli- 
ziten, aus Einsen und Nullen bestehenden Ausschrift von a rechts von der 7-ten 
Eins stehen. Diese Anzahl wird bis zum rechten Ende der Zahl a gezahlt. Im 
Beispiel a = 10011000111 ist demnach n,=5, ng=n;=3, nyg=ns=ng=9. Die 
Summe 


N(a) =,+Mo+-:- +4, 


nennen wir das Gewicht von a. Im Beispiel wird N(a) = elf. 





Uber die Anwendung von Binarmodellen 93 


Um N(a) zu berechnen, wenn a als in (1) gegeben ist, ordnen wir die Exponen- 
ten a), % ,...,%,, in abnehmende Folge: 
Oy > Og > +++ > ay. 


Dann sieht man, daB die 7-te Eins, die ja den Wert gx angibt, von «; Ziffern 
nachgefolgt wird, unter welchen (m—z1) Einsen sind. Also ist n;=aj—(m — i) 
und 


N(a) = y (a; — (m —i)), 
folglich — 


N(a) = Ya) (5) 
i=1 ad 


Diejenige Zahl u, die nur aus m Einsen besteht: 
6 QPF 4 gems. ge (6) 
hat also das Gewicht N(u) =0. 


Wenn man Einsen rechts von a hinzufiigt, andert man das Gewicht nicht. 
Wenn eine gegebenenfalls vorhandene Eins in der letzten Stelle von a ausgelassen 
wird, andert sich das Gewicht auch nicht. Dies ist unmittelbar einleuchtend und 
kann iibrigens mittels (5) bestatigt werden durch das Ausrechnen von N(a’), wo 


a’ =qa-2P4 2-14 gr-84...4 90 
bedeutet. 


Es folgt unmittelbar aus (5), wie sich das Gewicht bei einer Modifikation andert. 
Wenn jetzt 


B, 


Ky, 


a’=a+ 








eine Modifikation ist, hat man in (5) nur a, mit f, zu ersetzen, woraus 
N(a’) = N(a) + By — % 
folgt. 


Eine Modifikation / verursacht also eine Gewichtsanderung =B—«. Je 





nachdem diese positiv oder negativ ist, wollen wir die Modifikation als Adjunktion, 
bzw. Reduktion bezeichnen. Es ist eine naheliegende Aufgabe, die Zahl a durch 
wiederholte Adjunktionen aus wu ableiten zu versuchen. Wir werden auf dieses 
Problem, sowie auf seine Umkehrung — d.h. die wiederholte Reduktion von a 
bis auf « — zuriickkommen. 

Eine fiir gewisse Anwendungen (s. Abschnitt 9c) wichtige Frage betrifft das 
Gewicht einer Zahl, die aus jeder p-ten Ziffer von a besteht. Genauer beschrieben : 
Unter den Exponenten «,, % ,..., %,, in (1) wahlen wir diejenigen aus, die kon- 
gruent zu j(mod. p) sind (Q<7<). Diese Exponenten kénnen wir folgender- 

‘n schreiben: yt 
maBen schreiben BP +7, +=1,2,...,m,, 
wo m,; ihre Anzahl bedeutet. Dann bilden wir die binare Zahl 
a; = 9B, 4+ 2B: fuer Py 
Man erhialt ~# solche Zahlen, indem man 7 =@, J, ..., (6 — 1) setzt. 








94 Stic CoMET: 


Zahlenbeispiel: a = 2! + 2% + 24+ 2°+ 28+ 27 und p =}. 
Kongruent 0 (mod. 3) sind 3und6; also ay=2!+ 2; 
kongruent J (mod. 3) sind 1, 4und 7; also a,=2°+ 2! + 2?; 
kongruent 2 (mod. 3) ist nur 5; also aj,=2!. 


Die Verhaltnisse werden viel iibersichtlicher, wenn man die Zahlen im binadren 
System notiert. Im Beispiel wird so 


a = 011111010, 


wo man durch eine links vorangestellte Null die Zifferanzahl mit 3 teilbar gemacht 
hat, und man erhialt: 

aus den nicht punktierten Ziffern: ag= 110; 

aus den einfach punktierten Ziffern: a,=111; 

aus den doppelt punktierten Ziffern: ag= 010. 


Die Gewichte sind N(a) =elf, N(aj) =2, N(a;) =0, N(as) =1. 
Fiir die allgemeine Untersuchung gehen wir zur analogen Notierung iiber und 


schreiben: 
pq-1 


a=))2,;-%, 
i=0 


wo die Ziffern z;— 1 oder 0 sind, je nachdem 7 einem der Exponenten «, gleich 
ist oder nicht, und wo ferner g so groB gewahlt worden ist, daB pq gréBer als 
den gréBten unter den Exponenten «,, %»,...,%,, in (1) ausfallt. Dann ist die 


Anzahl von Ejinsen in a: 
pq—1 


= = D% 
i=0 


und das Gewicht von a: 


bq—1 - 
N(a) = 2! 2; i (7) 


Ferner ist 
q—1 
a; m 2a pers" 7=9,1,....(e—J), 


und die Anzahl von Einsen in dieser Zahl: 


q-1 
m; = 254 aq . (8) 
SchlieBlich ist das Gewicht: 
q-1 “ :(m; — 1 
N(a;) = J i+ 2554; - A. (9) 


Um nun zwischen N(a) und den N(a;) eine Relation herzuleiten, bemerken 
wir, daB die in N(a) auftretende Summe sich aufspalten 1aBt: 


>(5 


4 af . . 
Li =Z(E i+ -Api43) =P 


p—1q—-1 S| q~-t ). 


D Lt 2pia¢ + Li Dd 2p; 
=0 i=0 j=0* t=0 


1 


j=0\=0 





Uber die Anwendung von Binarmodellen 95 


Mit Bezugnahme auf (7), (8) und (9) wird also 


p—1 p-1 p-1 astitgm th niiund 
N(a) — b- 2, Nla) = Li-m+o-D uy) ai a 
i= j=0 j=0 


Mit Riicksicht auf >’ m;=m haben wir aber: 





p—1 p-1 
Xd (m; — m,) = (p — 1)m — 224 ae 
i<k en 
und ferner 
p—1 
D2 (m;— m)* = p- X mi — m*. 
i<k j7=0 
Hieraus folgt: 
p—1 
N(a) —? “2 N(a)) = ; } 2 (m; — m,) (m; — m,— 1). 
i= i< 
Da fiir ganzzahlige m;, m, jedes Glied der rechten Seite 20 ist, folgt 


p—1 
N(a) =p: 2, Nia). (10) 
/= 
Ferner folgt, daB die Gleichung 
p—1 
N(a) =P calla) (11) 
7= 


dann und nur dann gilt, wenn alle m;— m,=0 oder = / sind fiir7<. Dies kann 

so ausgesprochen werden, daB es, damit (11) gelte, ein geben muB, so daB 
Mg = M, = --> = Mm =—=m4.,+1=—=ms2+1=-::- = My_4 + z. 

Im frither gegebenen Beispiel war mg= 2, m,;=3, mg= 1, und in der Tat gilt 

in diesem Falle das Ungleichheitszeichen in (10). Ein Beispiel, wo (11) gilt, wird 


von 
a =011101010 und p=3 


geliefert. Es wird in diesem Falle: 


ay = 110; a,= 101; a, = 010; 
Me = 2; m,= 2; m, = I; 
N(a) =zwolf; N(ag)=2; N(a,))=1; N(a) = 1. 


Man kann iibrigens die Bedingung dafiir, daf (11) gelte, folgendermaBen 
vereinfachen. Durch Erganzung mit Einsen rechts von a, was ja das Gewicht 
nicht 4ndert, macht man zuerst die Anzahl der Einsen von a durch # teilbar. 
Dann fiigt man wenn nétig Nullen links an a, bis auch die Gesamtanzahl der 
Ziffern von a durch # teilbar wird. Die Bedingung fiir die Giiltigkeit von (11) 
lautet dann einfach, daB alle my, m;, ..., m,—; einander gleich sein miissen. 

Im zweiten Beispiel kann man also a@ zu 


a = 111010101 


erginzen, was ag=101, a,= 110, ag,=101, mg=m,=m,=2 gibt. 








96 Stic CoMET: 


5. Zusammenhang mit den Partitionen ganzer Zahlen 

Wenn man durch sukzessive Adjunktionen an die durch (6) definierte Zahl u 
die Gewichtsanderungen 7,,7,,...,7,, hervorruft, wird die entstehende Zahl a 
immer das Gewicht 

N(a) =%,+%o+::: + Van 

besitzen, auch wenn a selbst verschieden ausfallt. Die nicht-negativen Zahlen 
¥,,-+++,% Sind also die Glieder einer Partition, 9, der Zahl N(a). Wir wollen 
unter den verschiedenen Zahlen a eine herausgreifen, die eindeutig die Partition 0 
bestimmen kann. Zu diesem Zweck ordnen wir 7,,...,7,, in nicht-wachsende 
=e Zhe Br Z0) (12) 
und fiihren die Adjunktionen in der hierdurch bestimmten Reihenfolge aus unter 
Benutzung, der Reihe nach, von der /., 2.,..., m-ten Eins der Zahl u. Wegen 
(12) sind namlich diese Adjunktionen immer méglich. Sie geben zum Resultat 
die Zahl 


’ 
'm 


0 


die wir das bindre Bild der Partition 9 nennen wollen. Der Wert von r ist, gemaB 


(13), (6) und (4): 


m—1+7; 
m -- 1 


m—2+ 174 
m — 2 


rout +| | (13) 








atl 








ge Qty gtetm- 8 rn (14) 
Wir bemerken (wie im Abschnitt 4), daB sich rechts von der 7-ten Eins 7; Nullen 
befinden. Ferner ist das Gewicht 
N(t) = 11 + 190+) += +49 t+ + Ye 
und dies wird vom Hinzufiigen oder Weglassen abschlieBender Einsen in 7 nicht 
beeinfluBt, wie friiher erwahnt wurde. 
Umgekehrt 1aBt sich jede binar geschriebene, ganze Zahl a, deren Gewicht 


N(a) ist, als das binare Bild einer bestimmten Partition 9 von N(a) auffassen. 
Ordnen wir namlich die Exponenten von (1) in abnehmende Folge: 


a, > ag > +++ > ay (SO), 
kénnen wir, beim Vergleich mit (14), 


a; — (m — i) =7; 


setzen. Da 
1, —V417=4—Oj4,-120 fir i =1,2,...,(m—]), 
Tn = ty 0, 
sind 7}, 72, ---, % die in nicht-wachsender Folge geordneten Glieder einer Par- 


tition @ von N(r) =N(a), deren binares Bild r =a ist. 

Am einfachsten bestimmt man die Glieder 7; von @ durch Zahlung der rechts 
von der i-ten Eins stehenden Nullen. 

Nun zahlen wir die Nullen der Zahlv von dem rechten Ende nach links ab und 
halten einen Augenblick bei der dabei als die j-te gefundenen Null an. Die Anzahl 
der Einsen, die in 7 links von dieser Null stehen, gibt danu an, wie viele Glieder 
=j sich in der Partition @ finden. Nennen wir diese Anzahl 7;, wird daher 


7, +7.+--+7,=N(y), 





Uber die Anwendung von Binarmodellen 97 


wo m=r, das gréBte Glied von @ bedeutet. Die Zahlen 7,,75, .++, V5, bilden 
somit auch eine Partition von N(r), die wir die zu 9 konjugierte nennen, und die 
wir mit @ bezeichnen. Da, nach der Bildungsweise von 7,, ferner 


7,27,2-- 275 


gilt, wird das binare Bild 7 von @ mittels der 7; bestimmt, am einfachsten durch 
die Bedingung, daB sich rechts von der j-ten Eins in 7 gerade 7; Nullen befinden 
sollen. Indem wir an den zur Einfiihrung von 7; leitenden Gedankengang er- 
innern, folgern wir, daB 7 unmittelbar erhalten wird, wenn ¢ riickwarts geschrieben 
wird, wobei die Einsen mit Nullen und die Nullen mit Einsen ersetzt werden. — 
Wenn dasselbe Verfahren auf 7 ausgeiibt wird, kommt 7 wieder. Dies bedeutet, 
daB o ihrerseits die zu @ konjugierte Partition ist, d.h. daB 9 und 0 zueinander 


konjugiert sind. 


6. Ketten von Adjunktionen bzw. Reduktionen 


Obgleich die Zahl 7 als binadres Bild die Partition 9 eindeutig bestimmt, be- 
deutet dies keineswegs, daB 7 durch keine anderen Adjunktionen als die in (13) 
angegebenen aus u ableitbar sein kénnte. Als Beispiel nehmen wir die Partition 


o = (2.2.1), 
deren binares Bild 

y = 11010 
aus 

u=I111 
durch die Adjunktionen 

4 3 1 
“f+ Bll 











hervorgeht. Hier werden gemaB (13) die Einsen von u der Reihe nach von links 
nach rechts (2, 7, 0 sind die Exponenten von 2”, 2/, 2°) ausgeniitzt. Auch wenn 
diese Einsen in gednderter Reihenfolge ausgeniitzt werden, kann r entstehen, 
wie die Adjunktionen 


3 4 1| 4 2 3} 
u + 1 +|3]+ (|= und w+ +t 4 |=" 




















zeigen. Ferner kann man es versuchen, die Folge der Gewichtsaénderungen 
(2,2 und J) abzuandern. So ergibt die Folge 2, /, 2: 


3 

w+ (4 (4] 4 [=> 
und /, 2, 2: ; 
3 


9 

















Fiir diese Partition @ sind die angegebenen Adjunktionenreihen die einzigen, die 
mit den Gewichtsanderungen 2, 2 und J méglich sind. Wenn man die Gewichts- 
anderungen mit anderen ersetzt, deren Summe dieselbe ist, kann man weitere 
Adjunktionenreihen erhalten. Beispiele hiervon diirften kaum ndtig sein. 








98 Stic ComET: 


Jede Reihe von Adjunktionen, die u in r gemaB 
opal bal inal s) 
B; 


iiberfiihrt, wollen wir eine Kette von Adjunktionen nennen. Wir sind daran 
interessiert, alle zu 7 gehérenden Ketten zu bestimmen. 

Jeder Kette von Adjunktionen entspricht eine Reihe von Reduktionen, die 
y in u iiberfiihrt, und zwar* erhalt man aus (15): 


“lee 





Da die Verhaltnisse am besten bei Reduktionen iibersehbar sind, wollen wir die 
Terminologie auf Reduktionen beziehen. Eine Kette von Reduktionen ist eine 
Reihe von Reduktionen, die das binare Bild 7 in die Zahl u mit derselben Anzahl 


von Einsen iiberfiihrt. Wenn dabei die einzelnen Gewichtsabnahmen k,, kg,..., k, 
nacheinander eintreten, wollen wir die Kette mit K(k,, ky, ...,k,) bezeichnen. 
Wir schreiben auch symbolisch 
K(k, Rg, ..., Rn) as ah 4 py wl -*? +(* ~. (16) 
1 





wo jedes «;’ eine Eins, namlich ad , angibt, die in der durch die (¢—1) voran- 
gehenden Reduktionen entstandenen Zahl vorkommt. Dagegen darf ja gre 
darin nicht vorkommen, wegen der Definition einer Reduktion. Wie wir schon 
am numerischen Beispiel sahen, kénnen mit einer bestimmten Folge k,, kg, ...,R, 
mehrere Ketten vereinbar sein. Diese wollen wir einfach durch einen Index bei 
K unterscheiden. Im obigen Beispiel sind so fiir den Index h in K, (1, 2, 2) drei 
Werte, in K,(2, 1, 2) und K,(2, 2, 1) je einen Wert méglich. 

Wahrend der Ausfiihrung einer Reduktionenkette K,(k,, ky, ..., k,) bewegen 
sich die Einsen der Zahl r nach rechts hin, um schlieBlich in den m letzten Stellen 
einzutreffen. Wir fassen unter den Einsen von r eine beliebige, 2*”~', ins Auge. 
Die Bewegungen dieser ausgewadhlten Eins werden von gewissen unter den in 
der Kette eingehenden Reduktionen verursacht, die wir folgendermaBen bezeich- 
nen (p; ist die Anzahl der Teilbewegungen) : 


FCs Sa pl cabal 


ox{*) a) =r; +m — i. 


Die Zahlen ') sind der Reihe k,, ky, ..., k, derart entnommen, daB die k{") mit 
wachsender 7 immer spater in der Reihe stehen. Die endgiiltige Stelle der be- 
trachteten Eins muB einer der Stellen 2"~7, 2"-?, ..., 2/, 2° gleich sein. Wir 


haben somit 
r+m—i-—k—kP—...—kO=e,, (17) 


wo e;= einer der Zahlen m— 1, m—2,..., 1, 0 ist. 





* Man beachte, daB die Reihenfolge der Gewichtsabnahmen bei einer Reduk- 
tionenkette entgegengesetzt zu der der Gewichtszunahmen bei der entsprechenden 
Adjunktionenkette ist. 





Uber die Anwendung von Binarmodellen 99 


Relationen wie (17) gelten fiir die m Einsen der Zahl 7. Die Zahlen e, sind 
dabei alle untereinander verschieden, und ¢,, ég, ..., ¢,, ist daher eine Permutation 
der Zahlen m—1,m—2,..., 1,0. Der besondere Fall kann eintreffen, daB eine 
Eins sich gar nicht bewegt. Dann wird die betreffende Anzahl 4;=0, und in 
dem entsprechenden Ausdruck (17) kommen keine &') vor. 


7. Der Wert einer Reduktionenkette 


Wir haben also gefunden, daB jede Reduktionenkette K,(k,,...,%,) eine 
solche Aufspaltung der Zahlenfolge k,, ky, ..., k, in m Teilfolgen k), kf), ..., Ri) 
(t=1, 2,..., m) bestimmt, daB die aus (17) berechneten Zahlen ¢,, eo, ..., ¢, eine 
Permutation von m—1,m—2,...,1,0 ist. Wir wenden uns nun dem umge- 
kehrten Problem zu, indem wir zunachst eine Aufspaltung von k,, ko,..., k, 
in m Teilfolgen {*) machen, die so abgepaBt sind, daB die gemaB (17) berechneten 
e; eine Permutation von m—1,m—2,..., 1,0 bilden. Wenn dies gelungen ist, 
fragen wir, ob zu dieser Aufspaltung eine Reduktionenkette gehért, bei welcher 
die 1-te Teilfolge, Mw, ..., Re), die sukzessiven Bewegungen der 7-ten Eins in 7 
fiir jedes 1=J, 2,..., m angibt. 

Um diese Frage zu beantworten, denken wir uns, daB wir es versuchen, eine 
Reduktionenkette gem&B (16) aufzuschreiben, wobei fiir jede Reduktion die 
Wahl der zu bewegenden Eins durch den Index 7 derjenigen Teilfolge bestimmt 
wird, an welcher die aktuelle Gewichtsverminderung gehért. Wenn es gelingt, 
die ganze Reihe k,, ko, ..., k,, von Gewichtsverminderungen zu durchlaufen, ohne 
daB eine Eins in eine Stelle getragen wird, wo sich schon eine Eins befindet, 
dann wird die Antwort bejahend, im entgegengesetzten Falle nicht. 

Allgemein wird also eine Aufspaltung von k,, ..., ,, in solche Teilfolgen nicht 
eine Reduktionenkette bestimmen. Wir wollen aber den ungiinstigen Fall naher 
betrachten. In diesem Falle sollte bei einer gewissen Reduktion, sagen wir der 
y-ten, diejenige Eins, die etwa aus 7; +m—di stammt, in dieselbe Stelle fallen, 
wo sich schon die etwa aus 7; +-m—j stammende Eins befindet. Die iibrigen 
(n —v) Reduktionen hatten dann die erstere Eins in die Stelle e; und die letztere 
in die Stel'e e; iiberfiihren sollen. Vor der Ausfiihrung dieser (m —y) letzten 
Reduktionen sind aber die beiden Einsen nicht zu unterscheiden. Daher gibt 
es auch eine andere Aufspaltung, die mit der vorigen in k,, ..., k, itibereinstimmt, 
wahrend k,,,,...,%, die erstere der genannten Einsen auf e; und die letztere 
auf e; reduzieren sollte. Jedem ungiinstigen Fall entspricht also ein anderer, wo 
zwei unter den Zahlen ¢,, é9,..., é,, miteinander getauscht worden sind. Durch 
die Einfiihrung von ,,Werte“’, die fiir entgegengesetzte Permutationsklassen sich 
irgendwie aufheben, kénnte man also die ungiinstigen Falle unschadlich machen. 

Wir wollen demnach einerseits den Wert einer Aufspaltung und andererseits 
den Wert einer Reduktionenkette als +1 oder — 1 definieren, je nachdem die auf- 
tretende Zahlenreihe ¢,, é,..., ¢,, eine gerade oder ungerade Permutation von 
m—I1,m—2,...,1, 0 ist. 

In der oben auseinandergesetzten Weise gibt es zu jeder Reduktionenkette 
eine Aufspaltung, und diese hat denselben Wert wie die Kette. Umgekehrt, die- 
jenigen Aufspaltungen, die keiner Reduktionenkette entsprechen, haben paar- 
weise entgegengesetzte Werte, deren Summe also Null ist. Es gilt also folgender 


Satz: 








100 Stic CoMET: 


Es seir das binare Bild einer Partition 9 = (7) -19-...-1),), Wor; =1%=-:->7;,>0, 
und es sei ferner k,, ky, ..., k,, eine gegebene Folge von nicht-negativen, ganzen 
Zahlen, deren Summe =AN(r) ist. Dann ist die Summe der Werte aller zu 
k,,Rg,...,k, hérenden Reduktionenketten, die 7 in wu iiberfiihren, gleich der 
Summe der Werte aller Aufspaltungen der Folge k,, ko, ..., k, in solche Teil- 
folgen k{,..., RY) (i =1,2,...,m), daB die gem&B (17) berechneten Zahlen 
€,, €9,-+-, & Permutationen der Zahlen m— 1, m—2,..., 1,0 sind. 

Die Gleichungen (17), ebenso wie die Aufspaltungsméglichkeiten, sind von 
der gegenseitigen Reihenfolge der Zahlen k,, ky,..., k, unabhangig, und eine 
Anderung der Reihenfolge dieser Zahlen wird deshalb die Summe der Werte der 
Aufspaltungen nicht andern. Diese Summe ist also schon durch diejenige Parti- 
tion x der Zahl N(r) bestimmt, deren Glieder k,, ky, ..., k,, sind. Nach dem obigen 
Satz gilt diese Aussage gleichzeitig der Summe der Werte der Reduktionenketten. 
Wir kénnen diese Summe mit y,(7) bezeichnen und wollen sie ,,den von 7 be- 
stimmten charakteristischen Wert von x‘ nennen. 


8. Die Berechnung der charakteristischen Werte 


Die Bestimmung des Wertes, + / oder — J, einer Reduktionenkette geschieht 
am bequemsten nach folgender Bemerkung: Wir denken uns, daB gewisse Num- 
mern, etwa m—1,m—2,..., 1,0, mit den Einsen von ¢ verkniipft sind, und 
daB diese Nummern bei den Bewegungen der Einsen mitfolgen. Nach jeder aus- 
gefiihrten Reduktion bilden die Nummern eine Permutation (eventuell die iden- 
tische) ihrer urspriinglichen Reihe. Eine Reduktion, bei der eine Eins v andere 
Einsen passiert, andert die Permutationsklasse der Nummern, nur wenn y un- 
gerade ist, dagegen nicht, wenn v gerade (oder Null) ist. Wenn wir mit »; die 
Anzahl von Einsen bezeichnen, die bei der 7-ten Reduktion passiert werden*, 
folgern wir, daB der Wert der Reduktionenkette gleich 


(— 1)" tte ton (18) 


ist. Die praktische Berechnung von  ,(7), z.B. mittels einer digitalen Rechen- 
maschine, kann also folgendermaBen ausgefiihrt werden. Zuerst entscheidet man 
sich fiir eine Reihenfolge der Glieder von x, und diese wird wahrend der Berech- 
nung beibehalten. Dann fiihrt man alle zu dieser Reihenfolge hérenden Reduk- 
tionenketten aus, und dabei zahlt man fiir jede Reduktion die Anzahl »,; der 
passierten Einsen. Der fiir eine Reduktionenkette akkumulierte Wert der »; 
bestimmt dann, wenn diese Kette zum Ende gebracht worden ist, den Wert der 
Kette gemaB (18). Die Summe der Werte aller Ketten ist 7, (7). 

Wie wir in 7 gesehen haben, wird derselbe Wert y,(7) entstehen, wenn eine 
andere Reihenfolge der Glieder von x den Kettenbildungen zugrunde gelegt wird. 
Dies ergibt die Méglichkeit zu einer gewissen Kontrolle der numerischen Rech- 
nungen. 

Die Rechnungen kénnen auch mittels einer Rekursionsformel beschrieben 
werden. Um diese herzuleiten, fiihren wir zunadchst nur die erste Reduktion 





* Diese Zahl vy; sollte eigentlich mit noch einem Index versehen werden zur Ent- 
scheidung, auf welche Kette sie sich bezieht. Hoffentlich wiirde die Auslassung dieser 
Doppelindizierung die Verstandlichkeit nicht stéren. 





Uber die Anwendung von Binarmodellen 101 


einer Kette aus. Diese Reduktion ergibt 


a; — "| 


/ 


¥,=7+ (19) 





wo 2% eine in y vorkommende Eins bedeutet, die so gewahlt worden ist, daB 
24%—-* nicht unter den Einsen von 7 vorkommt. Wir bezeichnen mit x’ diejenige 
Partition (der Zahl N(r) —k,), deren Glieder ky, k;,..., k, sind. Dann erhalten 
wir den von 7; bestimmten charakteristischen Wert von x’, d.h. 7,,(7;), als die 
Summe der Werte aller auf 7; auszuiibenden Reduktionenketten K,, (ko, ..., R,). 
Jede dieser Ketten geht in einer und nur einer Kette K,(k,,..., %,,) als Bestand- 
teil ein. Diese Kette, die mit (19) beginnt, hat gemaB (18) einen Wert, der sich 
von dem von K;,,(kg,..., &,) nur um einen Faktor (— /)”/ unterscheidet. Dabei 
bedeutet v, ; die Anzahl der bei der Reduktion (19) passierten Einsen. Mit anderen 
Worten ist v,; die Anzahl der in y vorkommenden Exponenten zwischen «; und 
a;—k,. Man wird also den Wert x, (7) erhalten, indem man die erste Reduktion 
(19) auf alle médglichen Stellen von 7 ausiibt, sodann in jedem Falle den Wert 
%»' (v;) berechnet und mit dem Faktor (— 1)" versieht, und schlieBlich die Summe 


Xx (7) = ~ (— 1)" xe (7) (20) 
j 

berechnet. Im Falle, wo x nur aus einem Glied besteht, wird r;=u, wenn (19) 
moglich ist, wahrend x’ symbolisch als ,,Nullpartition’’, x’=0, aufgefaBt werden 
kann. Dann definiert man 7 (vu) =J, damit (20) auch in diesem Falle giiltig 
bleibe. Wenn schlieBlich die Reduktion (19) bei keiner Wahl von «; ausfiihrbar 
ist (weil alle «;—k, unter den Exponenten von 7 vorkommen), mu8 die Summe 
(20) als leer betrachtet werden, denn ,(7) ist dann =0. 


Einige spezielle Werte kénnen leicht berechnet werden. Wenn 
ga 2" = 100...00, Ni(yr)=N, «= (h,,he,.-.,2,), 


gibt es nur eine Reduktionenkette, die 7 in u iiberfiihrt. Da hier keine Einsen 
passiert werden, erhalten wir 


tu(2®) = 1. 
Wenn 7 =2N+42N-14...4+2!=11... 110, N(r) =N, gibt es zu x auch nur eine 
Kette, und zwar 


0 
ky 


ky 
k, + hg 


Die Anzahl der passierten Einsen ist = 
= (k; — 1) + (Rk, — 1) +? + (k, — 1) =k, + Rots: + k,, = y 


woraus folgt 





+| 





as eC Cee 


unrt| ky thy toe thy 


4, (2% se gN-1 4. ee + 2!) _ (— 1)N-". 


Die beiden betrachteten 7 gehéren zu konjugierten Partitionen, 9 =(N) bzw. 
— (JN 
2 x (J )- ~ . . . r 
Allgemeiner, es seien 9 und @ zwei zueinander konjugierte Partitionen von N, 
und r bzw. 7 ihre binaren Bilder. Wir erinnern daran (s. 5), daB 7 aus ry hervorgeht, 








102 Stic CoMET: 


wenn man 7 riickwarts schreibt, wobei J in 0 und 0 in I verwandelt wird. Jede 
in ry mégliche Reduktionenkette 


ware [Py + |, wo a;—B,;=k;, 


entspricht einer solchen in 7, und zwar, wenn (M+) die Zifferanzahl von 7 
bedeutet: 


“re icg oe fog = anon 


Wenn »; und »,; die Anzahl der bei der Reduktion B, in der ersten Kette, bzw. 





%; 
7 Pe Fy in der zweiten, passierten Einsen bedeuten, muB »;+%;=,;— 1 sein, 
— Pi 
denn es ist ja ¥; zugleich die Anzahl] der bei : ‘| in der ersten Kette passierten 
a; 





Nullen. Es folgt, daB 
vy, +9,+---+%,+ 4, = (Rk, -—1)+---+(k, —1) =N—n, 


also 
(— 1) t Fat thn _— (— yr: (— J) ttn, 


Weil der Faktor (— 1)"~" konstant ist, gilt somit fiir die Summen der Ketten- 
werte: 


An(%) = (—1)"—"- (7). 


9. Einige spezielle Formeln 


Nebst der Angabe des Anfangswertes y9(u) =J reicht die Rekursionsformel 
(20) vollig aus, um alle charakteristischen Werte y, (7) zu berechnen. Doch werden 
wir hier einige Formeln herleiten, die in gewissen Fallen die rechnerische Arbeit 
vermindern, zuweilen in betrachtlichem Grade. 

a) Zuerst behandeln wir den Fall, wo in der Partition x alle Glieder k;= J sind. 
Das Gewicht N(r) wird kurz N bezeichnet, und x wird wie iiblich x =(1%) ge- 
schrieben. Wir wollen y,;y)(7) durch Aufspaltung der Zahlenfolge k,, ko, ..., Ry 
in Teilfolgen nach (17) berechnen. Da alle k{=Z1 sind, wird (17) einfach 


, ° 
1, +m —1— é¢;=p;. 


Irgendeine ausgewahlte Permutation P =e,, é9,..., €,, Wird also durch alle die- 
jenigen Aufspaltungen hervo:gebracht, bei welchen in der 7-ten (¢ = J, 2, ..., m) 
Teilfolge ~; von den N Gliedern k,, kz,...,ky fallen. Die Summe der Werte 
dieser Aufspaltungen, von denen jede den Wert sgn P hat, ist demnach = 


N! 
p:! Peo! ef Pm! . 
wo sgn P die Zahl + 1 oder — 1 bedeutet, je nachdem P eine gerade oder ungerade 


Permutation von (m—1), (m—2),..., 1,0 ist. Der Wert x ,x)(7) wird durch 
Summation iiber alle Permutationen P erhalten. Der Kiirze halber fiithren wir 





=sgnP. 


a=7+m—i 





Uber die Anwendung von Binarmodeilen 103 


ein. Somit wird 


N! 
Xm) (") = a sgn P (a, — €;)! (ag — eg)! ... (Om — Em)! (21) 





(P) 
Ferner fiihren wir die iibliche Schreibweise 
! 
x") = x(x — 1) (x — 2)...(x—n+1) gor. x) — 1, (22) 


ein und kénnen dann 


an N! - pyles) ay (6s) (em) 
Xaxy”) = Oy! Og! ... On! gin? a7 Xp +++ Om (23) 





schreiben. Der rechts stehende Summenausdruck ist nichts anderes als die Ent- 
wicklung der Determinante 


a2) ol) gel!) 7 
ol —2) aim 2) al!) 7 


Wegen (22) 1laBt sich diese Determinante als eine Vandermondesche erkennen, 


wo die i-te Kolonne 7, 7=1,2,...,m, lautet. Hieraus folgt der gesuchte 
Ausdruck: 
N! Me 
tan) = sat cant HY (a). om 
(#<j) 


Man kann ihn anwenden, wenn man nach wiederholter Verwendung von (20) 
an einer Partition x’ angelangt ist, deren alle Glieder = J sind. 

b) In einer durch k,, ko,..., k, bestimmten Reduktionenkette denken wir 
uns nur die m’ ersten Reduktionen ausgefiihrt. Dadurch wird 7 in ein 7’ iiber- 
fiihrt mit dem Gewicht 


N(r') = N(r) — (hy tho +--+ thy) =’. 


Die Folge dieser n’ Reduktionen wollen wir auch als eine Reduktionenkette 
bezeichnen, oder vollstandiger, zur Unterscheidung, eine von 7 nach 7’ fiihrende 
Reduktionenkette. Wir teilen ihr einen Wert zu, der =(— 1)"*%*""*%’ ist, wo 
wie vorher »; die Anzahl der bei der 7-ten Reduktion passierten Einsen bedeutet. 
Setzen wir zur Abkiirzung x’’=(k,, ky, ..., ky’), wollen wir die Summe der Werte 
aller von 7 nach 7’ fiihrenden Reduktionenketten mit y,-(7; 7’) bezeichnen und 
etwa den vom Ubergang 7 zu r’ bestimmten charakteristischen Wert von x’’ 
nennen. Indem wir x’ = (k,-.,,..., 2) setzen, kénnen wir analog zu (20) folgende 
Formel herleiten: 
X(x'’-%’) (7) = ~ Xx" (7; r’) * Xx! (r’) , 


wo die Summe iiber alle binare Bilder r’ der Partitionen von N’ erstreckt wird. 
Wir fiihren den Beweis nicht naher aus, da er dem von (20) analog ist. 

Bei der Berechnung von ;,,-(r; 7’) kann man sich auch von den Werten von 
Aufspaltungen der Zahlenfolge k,, ky,...,k, wie in (17) bedienen, nur daB 
€;, €g, +++, Giesmal die Permutationen von £,, Bo,...,6,, durchlaufen, wo 
B,,.--, By, durch 

7! = 2Prt 2Prt... 4+ 2Pm Bi > Bo> +++ > By (29) 








104 Stic CoMET: 


definiert werden. Wenn speziell alle Glieder von x’’ eins sind, erhalten wir in 
voller Analogie zu (21) und (23): 
i a ; (N —N’)! 
Xux—wy (7) = ~ all Mer, eS ae ST, 
(N — N’)! 


= » >) sgn P « ax'et) ache)... oglem) 
Ot! Og! ... Om! ~ 6 ili 








wo die letzte Summe gleich der Determinante 


on!) op(Ba), apm) 


ist. Sie ist im allgemeinen keine Vandermondesche. 


c) SchlieBlich betrachten wir den Fall, wo alle k,, kg,...,k, einen gemein- 
samen Teiler p> J besitzen, also k;=-q;. Dann muB8B auch das Gewicht N(7) 
mit  teilbar sein, denn es ist ja N(r) =k,+hk,+---+h,. Wir schreiben N(r) = 
N =pM, also q,+9.+-::+9,=M. Wie in 4 kénnen wir voraussetzen, daB in 7 
sowohl die Anzahl m der Einsen als auch die Gesamtzahl der Ziffern mit / teilbar 
sind (wenn noétig kénnen Einsen rechts und Nullen links von ¢ hinzugefiigt werden). 
Bei jeder zu k,, ky, ..., k,, hérenden Reduktionenkette wird nun fiir jede bewegte 
Eins, 2%, der Exponent « nur um Vielfache von ~ geaindert. Der Rest (mod. p) 
des Exponenten bleibt also fiir jede Eins konstant. Nun gibt es aber unter den 
m Einsen von u gleich viele, die zu jedem der Reste 0, J, 2, ..., (6 — 1) geh6ren. 
Dafiir, daB 7 in u durch eine zu k,, ky, ..., k,, (k;=~q,;) hérende Reduktionenkette 
iiberfiihrbar sei, ist daher notwendig, daB die Einsen von r dieselbe Eigenschaft 
haben. Wenn wir also alle diejenigen Exponenten «; in r= 2'2%, die kongruent 7 
(mod. p) sind (j =90, J, ..., p—1), gemaB 


a= pB;+7 (t =1,2,..., mj) 


schreiben, k6nnen wir wie in 4 die Zahlen 
mj 
r; = Bi 
1= 


bilden und mit ihrer Hilfe die Bedingung folgendermaBen ausdriicken: 


Wenn das binare Bild 7 so geschrieben wird, daB seine Anzahl von Einsen 
durch # teilbar ist, dann ist die Gleichheit der Zahlen m, untereinander eine 
notwendige Bedingung dafiir, daB 7 in u durch irgendeine zu pq,, Pqo, ---, Pn 
hérende Reduktionenkette iiberfiihrbar sei. 

Wenn nicht alle unter den Zahlen r; gleich viele Einsen enthalten, kann es 
also keine solche Reduktionenkette geben, und in solchem Falle wird also y, (7) = 0. 

Wir erinnern daran, daB eine jede der Zahlen 7; einfach durch Herausgreifen 
jeder p-ten Ziffer aus der binar geschriebenen Zahl rv abgeleitet wird (s. 4). 


Wir betrachten jetzt den Fall, wo alle 7, gleich viele Einsen enthalten, also 


m 
alle m;= 


=t sind. Dann gilt (11), woraus wir 
p—1 
M = z N(r;) 


j=0 





Uber die Anwendung von Binarmodellen 105 


folgern. Jeder zu k,, kg,..., k, hérenden Reduktionenkette, die 7 in u (mit m 
Einsen) tiberfiihrt, entspricht ferner ein System von Reduktionenketten, die die 
Zahlen 7; in u (mit ¢ Einsen) tiberfiihren. Dabei verteilt sich die Zahlenfolge 


91, 92,-++» 9, auf p Teilfolgen, von denen jede die Kette bestimmt, die 7; in 
iiberfiihrt. Fiir die Zahlen q/?, gj), ..., qf) dieser Teilfolge gilt: 
qi) +9) +++ + 9H) = Nr), (25) 
d.h. sie sind die Glieder einer Partition x; von N(r;). 
Um den Wert der zu k,, ky, ..., k,, hérenden Kette zu bestimmen, teilen vwair 


den Einsen von 7; die Nummern (m;—1)p+]7, (m;—2)p+4+7,.--,f+7,7, von 
links nach rechts gerechnet, zu. Diese Nummern werden wir beibehalten, wenn 
wir die Einsen auf ihren urspriinglichen Platzen in 7 beobachten. Dann bilden 
aber diese Nummern der Einsen in 7, von links nach rechts gelesen, eine Per- 
mutation Q der Zahlen m—1, m—2,...,1,0. Der Wert der zu k,, ky,..., k, 
gehorenden Kette unterscheidet sich also vom Produkt der Werte der zu q¥), g)’, 
on qi? (j =0, 1,...,—1) gehérenden Ketten nur um den Faktor sgn Q, die + 1 
oder —/ ist, je nachdem Q eine gerade oder ungerade Permutation ist. Da Q 
nur von 7 und den 7; beruht, ist der Faktor sgn Q von den gewahlten Ketten un- 
abhangig und kann bei der Berechnung des charakteristischen Wertes voran- 
gesetzt werden. Wir bezeichnen mit 9, x, ...,%»,—, die bei einer Verteilung der 
Zahlenfolge q,, 42, .--, 4, entstandene Reihe von Partitionen der Zahlen N (7), 
N(r;), ---» N(%p-7), gemaB (25). Dann wird 


Xx (7) — sgn Q A z Xx (79) Xx, (7;) lis Xxp—r (7p~1) ’ (26) 


wo die Summe iiber alle Verteilungen gemaB (25) auszustrecken ist. Unter ihnen 
kénnen mehrere vorkommen, die nicht durch die gewahlte Indizierung (mittels 
Partitionen) unterschieden werden kénnen. Dies ist der Fall, wenn in der Reihe 
G1» 92» +++» 4» gleiche Zahlen vorkommen. Es komme der Zahlenwert 7 in dieser 
Reihe y; Male vor und in der Partition x; eine Anzahl von t;; Male (1S: M). 
Die GréBen t,; miissen das folgende Gleichungssystem erfiillen: 


p-1 

Di = fiir ¢=1,2,...,M, 
Pon: (27) 
24+ ty = Nir) fir 7=0,1,...,p—1. 


Die verschiedenen Lésungssysteme hiervon bestimmen die verschiedenen Par- 


titionenfolgen xg, ;, .-., %»—1, liber die in (26) summiert werden soll. Bei jedem 
dieser Lésungssysteme sollen die y; Ziffern mit dem Werte 7 auf die Gruppen 
mit 1,;(j =0, 1,...,—1) Ziffern verteilt werden. Jedes System kann also aus 
der Reihe g,, 9s, .--, 7, auf 
Ys 
P (0, %15 +++. %p—1) = 1] 5 a 
fel IT ,;1 
, yt 
j7=0 


Weisen entstehen. Die Formel (26) geht also in 
p—1 
%x(”) = sgn Q- p? P (#0, %1, +++) %p—y) TD (7) 


(%0,.++)%p—1) 








106 Stic CoMET: 


iiber, wo iiber alle verschiedenen, d.h. alle durch verschiedene Lésungen von 
(27) bestimmten, Partitionenfolgen (x9, ...,,_,) summiert wird. 
Im Spezialfall k; =k, =--- =k, =p werden alle g;= 1, und wenn wir N(r,) = N, 
setzen, wird M! 
YP (%o, %1, sey Hp—1) — N/N,!... Ny—1! . 





Nach (24) wird 
Ni! 


Oj 1/00; of eee 





Xx; (75) ‘aes aja! IT (a; —- C5) ’ 


t 
wo «;; durch 7;= }) 2% definiert sind. Also ist (stets vorausgesetzt, daB alle 1; 
i=1 
gleich viele Einsen haben, wenn die Anzahl der Einsen von 7 durch # teilbar 


emacht wird): 
6 fe) p—1 IT (aj, — a;;) 


tom (7) =senQ-M!. [] 44 . 


j=0 Oj x! Ajo! coe jz! 
Wir erinnern daran, daB x yn)(7) =O in den Fallen, wo nicht alle vy, gleich viele 
Einsen haben, wenn auch die Anzahl der Einsen von r durch # teilbar gemacht 
wird. 
10. Zusammenhang mit den Charakteren der symmetrischen Gruppe 


Im Vorstehenden haben wir niemals von den Charakteren der symmetrischen 
Gruppe gesprochen, und doch hat es sich eigentlich stets um diese Charaktere 
gehandelt. In der Tat wurde die binare Schreibweise 7 als Bild einer Partition o 
erstmalig als Hilfsmittel eingefiihrt, um die maschinelle Berechnung der Charak- 
tere v8 der symmetrischen Gruppe vom Grad N zu erleichtern (s. Schrifttum [3)). 
Von anderen Versuchen vorangegangen [2] erwies sich das hier beschriebene 
Bild 7 als das zweckmaBigste, unter anderem dadurch, daB die Murnaghansche 
Rekursionsformel ({4] und [5]), die wir in (20) erkennen, durch die Operation, 
die wir hier Reduktion genannt haben, fiir die Maschine einfach programmiert 
werden konnte. Die Zahl 7 wurde urspriinglich dem Youngschen Diagramm 
der Partition @ entnommen, wobei die Einsen und Nullen (in 7) aneinander 
gefiigte Strecken gleicher Lange angeben, die lotrecht nach unten bzw. wage- 
recht nach links gerichtet sind. Sie geben den rechten unteren Rand: (engl. rim) 
[6] des Diagramms. Die bei der Reduktionen auftretenden Zahlen (4) ent- 
sprechen véllig den von NAKAYAMA [7] eingefiihrten Haken (engl. hooks), und 
jede Reduktion bedeutet das Entfernen eines Hakens (engl. hook removal). 
SchlieBlich ist die Anzahl der dabei passierten Einsen gleich der lotrechten Lange 
(engl. leg-length) des Hakens. Wegen dieser treuen Ubereinstimmungen ist es 
ja fast trivial, daB die Charaktere 72 als Resultat unserer Berechnungen erscheinen. 

Das Ziel vorliegender Arbeit ist aber, die Frage zu stellen, ob nicht die Ver- 
haltnisse tiefer liegen. Alle hier gemachten Herleitungen und Berechnungen 
haben sich namlich aus folgenden Grundbegriffen ohne Hinweisungen auf die 
Darstellungstheorie der symmetrischen Gruppen vollzogen: 

I. Der Begriff des Binarmodells einer Teilmenge M, von einer abzahlbaren 
Menge M numerierter aber nicht naiher angegebener Objekte. Binar, weil in 
bezug auf M, jedes Objekt nur zwei Zustande haben soll, die An- oder Abwesen- 
heit. 

II. Modifikation. Der Austausch eines in M, anwesenden Objekts gegen ein 
anderes aus M, das nicht bereits in M, anwesend ist. 








Uber die Anwendung von Binarmodellen 107 


III. Gewicht. Eine zum Binarmodell gehérende GréBe, die bei einer Modifika- 
tion eine ebenso groBe Anderung erfahrt wie die dabei verursachte Nummer- 
anderung. — Bindrmodelle mit gleichen Gewichten und (wu) mit dem Gewicht 
Null. — Adjunktion (bzw. Reduktion) = Modifikation mit Gewichtszunahme 
(bzw. -abnahme). 

IV. Binares Bild 7 einer Partition @ von einer positiven ganzen Zahl N: 
Unter den Adjunktionenketten, die der Zahl u eine gesamte Gewichtszunahme = N 
geben, wird eine besondere ausgewahlt, die immer ausfiihrbar ist und die daher 
zur Definition von 7 dienen kann. 

V. Der Wert (+ 1 oder — 1) einer Reduktionenkette: Die Einfiihrung hiervon 
wird dadurch veranlaBt, daB die Anzahl derjenigen zu einer Zahlenfolge k,, kp, 
..., k, gehérenden Reduktionenketten, die 7 in u iiberfiihren, auf die Reihenfolge 
der Zahlen k; beruht. Die Summe der Werte dieser Reduktionenketten ist da- 
gegen von der Reihenfolge der k; unabhangig. Sie wird mit y,(r) bezeichnet. 


Es sollte hervorgehoben werden, daB im Punkte V einen Hinweis auf Per- 
mutationentheorie gemacht wird, indem der Wert der Reduktionenkette durch 
die Permutationsklasse von ¢,, é9,..., €,, bestimmt wird. Dies ist fiir die Defi- 
nition von x, (7) fundamental. 

Im iibrigen kénnte man wiinschen, daB es in einfacher Weise méglich ware 
aufzuweisen, wie 7 eine absolut-irreduzible Darstellung der symmetrischen Gruppe 
vom Grade N(r) bestimmt, und wie die Reduktionenketten mit den Gruppen- 
elementen (oder deren Klassen) zusammenhangen. Eine solche Darlegung habe 
ich jedoch nicht auffinden kénnen. Das Beste, was ich in dieser Richtung zur 
Zeit leisten kann, ist, die hier entwickelte Methode direkt einer von FROBENIUS 
und ScHuR [8] herriihrenden Formel anzukniipfen. Diese Ankniipfung werde 
ich hier zum SchluB geben. 

Zuerst beweisen wir einen Hilfssatz (vgl. [7]). Wenn in der Determinante 
A =|x;;| vom Grade m die j-te Kolonne %1;, %2;,.--, %mj Mit %1; +X, %2j° Xo, 
vey Xz Xp, ersetzt wird, entsteht eine Determinante, die wir A;=| Xi x;| be- 
zeichnen wollen. Der Hilfssatz sagt dann, daB 


(41+ Xe +++ + %q)-4 = D4; (28) 


j=1 


ist. Beweis: Man hat nach einfachen Determinantensatzen: 


m 
(x ++ x1) (% +X)... (% + %pq) 4 =| 4,;(% + %,)| = 2"- 44+ on ae fesse, 
wo die abschlieBenden Punkte Glieder niedrigeren Grades in x andeuten. Durch 
Gleichsetzen der Koeffizienten von x”~/ im ersten und letzten Ausdruck erhalt 
man (28), w.z.b.w. 

Nun ziehen wir das Beispiel 6) vom Abschnitt 2 heran. Die dort angegebene, 
zum Binarmodell a gehérende Determinante (3) wollen wir jetzt auch hinsichtlich 
dem Vorzeichen feststellen. Die  Kolonnen, die gemaB (2) in M, vorkommen, 
werden zuerst nach abnehmenden Exponenten «,; geordnet, von links nach rechts, 
und wir bezeichnen die geordnet erscheinenden Exponenten mit a) >ag> ++: > %m- 








108 Stic ComMEt: 


Diese Reihenfolge ist ja dieselbe wie die der Einsen in a, wenn man diese Zahl 
binar aufschreibt. Die Determinante der m ersten Zeilen dieser so geordneten 
Kolonnen wird mit /(a) bezeichnet. 


Wenn man in der Determinanie /(a) die 7-te Kolonne, x4, t=], 2, . 


mit arth 1=1, 2,..., m, ersetzt, entsteht eine neue Determinante. Diese ist a8. 
falls «;-+-k irgend einem anderen Exponenten gleich ist. Anderenfalls l4Bt sie 


aj +h 
a; 


sich durch eine Anzahl (»;) von Kolonnentranspositionen in i(a + 





) iiber- 
i 

fiihren. Die Zahl »; gibt an, wie viele Exponenten zwischen a; und a; +k liegen. 
Mit Verwendung des Hilfssatzes (28) erhalten wir also: 





, 


i 


(+ abt + xh) fe) =E(—I(a +[* 


(i) 








’ (29) 


wo der Strich am Summenzeichen andeutet, daB die Summe nur iiber diejenigen 7, 
fiir welche die gezeichneten Adjunktionen existieren, ausgestreckt werden soll. 
Der hier auftretende Faktor (— J)’ ist nichts anderes als der von uns eingefiihrte 
Wert der Adjunktion (dem der entsprechenden Reduktion). Daraus folgt 
durch wiederholte Anwendung von (29) auf a=u: 


(xp + s+ + xpp) ++ (XB + + + 2) Fo) = 2a) (30) 
wo die Summe iiber alle 7 mit dem Gewicht 
N(r) =k, +hot+--- +h, 


zu erstrecken ist. Nach der erwahnten Formel von I. SCHUR ist aber die linke 
Seite von (30) gleich ~ x8 (r), wo @ alle Partitionen von N(r) durchlauft. Hier 


bedeutet 7% den Chests der durch x angegebenen Klasse zueinander konju- 
gierter Elemente der symmetrischen Gruppe vom Grade N(r) in ihrer durch o 
angegebenen absolut-irreduziblen Darstellung. Da, wenn m=n gewahlt wird, 
alle f(v) linear unabhangig sind, folgern wir 


Hn (1) = ee 
Hierdurch haben wir die beabsichtigte Ankniipfung vollzogen. 


Literatur 


[1] Comét, Stic: Une propriété des déterminants et son application au calcul des 
caractéres des groupes symétriques. Kungl. Fysiogr. Sallsk. Lund Foérh. 14, 
Nr. 7, 1—11 (1944). 

[2] Comét, Stic: On the machine calculation of characters of the symmetric group. 
C. R. du 12¢ Congr. Math. Scand. a Lund 1953, S. 18—23. 

[3] Comet, Stic: Notations for partitions. Math. Tab. a. 0. Aids f. Comp. 9, 143— 146 
1955). 

[4] seabirds, F. D.: On the representations of the symmetric group. Amer. J. 
Math. 59, 437—488 (1937). 

[5] MurNAGHAN, F. D.: The characters of the symmetric group. Amer. J. Math. 
59, 739—753 (1937). 

[6] Frame, J. S., G. pe B. Ropinson and R. M. Tura: The hook graphs of the 
symmetric groups. Canadian J. Math. 6, 316—324 (1954). 





Uber die Anwendung von Binarmodeilen . 109 


[7] Nakayama, T.: On some modular properties of the irreducible representations 
of a symmetric group. Japanese J. Math. 17, 165—184, 411—423 (1941). 


[8] Scuur, I.: Uber die rationalen Darstellungen der allgemeinen linearen Gruppe. 
Sitzgsber. Pr. Ak. Wiss., ph.-math. KI., Berlin 1927, 58—75. 


Fiir den Inhalt des Abschnitts 9c, vgl. auch: 


[9] LirtLEwoop, D. E.: The theory of group characters and matrix representations 
of groups. Oxford: Univ. Press 1940 (insbes. 8. Kapitel). 


[10] LirtLEwoop, D. E.: Modular representations of symmetric groups. Proc. Roy. 
Soc. London, Ser. A 209, 333—353 (1951). 


Drémstigen 13 
Bromma (Schweden) 


(Eingegangen am 21. September 1958) 








Numerische Mathematik Bd. 1, 110—120 (1959) 


Numerische Behandlung des Gelenkvierecks* 


Von 


A. WALTHER und H. SCHAPPERT 


Problemstellung 


Das Gelenkviereck, auch Dreistabgetriebe genannt, ist ein geometrisch an- 
schauliches, in Maschinenbau und Feinwerktechnik haufig und vielseitig ange- 
wandtes Gebilde. Zu seiner Untersuchung zieht man meistens die begrifflichen 
und zeichnerischen Methoden der Kinematik heran. Analytisch-geometrisches 
Vorgehen bringt gewisse Unannehmlichkeiten, ist aber neuerdings durch das 
Hilfsmittel der komplexen Zahlen erleichtert worden? 2. 


Freilich bezieht sich die Erleichterung bisher im wesentlichen nur auf die 
theoretische Seite. Die vorliegende Mitteilung soll zeigen, daB man auf diesem 
Wege auch leicht zur numerischen Behandlung mit ziffernmaBig arbeitenden 
elektronischen Rechenautomaten gelangen kann. Wir entwerfen einen Rechen- 
plan zum Herstellen einer Zahlentafel von Punkten der Koppelkurve, erproben 
ihn an Beispielen und weisen auf Méglichkeiten zur Berechnung von Geschwindig- 
keiten und Beschleunigungen hin. 


Prazisierung 


Das ebene Gelenkviereck OABC sei nach Fig.1 in einem rechtwinkligen 
x y-Koordinatensystem mit Ursprung O gegeben durch drei aneinandergehangte 
Vektoren 


OA=a, AB=b, BC=c 


mit Endpunkt C auf der x-Achse. Dabei fassen wir die Vektoren als komplexe 
Zahlen mit den zugehérigen Rechenregeln auf. Die Seite OC auf der x-Achse 
mit der Lange d ist das Standglied, die Seiten OA und CB mit den Langen a 
und c sind die Drehglieder, und die Seite A B mit der Lange b ist das Koppelglied. 

Ein beliebiger Punkt K der bewegten Koppelebene beschreibt eine Koppel- 
kurve von 6. Ordnung in x, y. Wir bestimmen ihn durch seine Koordinaten u, v 
in einem mitbewegten rechtwinkligen «v-Koordinatensystem, dessen Ursprung 
in A und dessen u-Achse in der Richtung AB liegt. 





* Herrn Professor Dr. RoBERT SAUER in Miinchen zu seinem 60. Geburtstag am 
16. September 1958 gewidmet. 

1 WUNDERLICH, W.: Kinematik in der Ebene der komplexen Zahlen. Vortrag 
auf dem 3. Jugoslawischen Mechanik-KongreB vom 28. Mai bis 7. Juni 1956. 

2 MEYER ZUR CAPELLEN, W.: Die zweidimensionale Fourieranalyse spezieller 
Koppelkurven. Vervielfaltigtes Manuskript 1958. 





Numerische Behandlung des Gelenkvierecks 111 


Unser Ziel ist, die rechtwinkligen Koordinaten x, y des Punktes K in Ab- 


hangigkeit vom Drehwinkel « =arc a (Antriebswinkel) des Drehgliedes OA =a 
(der Kurbel) zu berechnen, wobei die Seitenlangen a, b, c,d des Gelenkvierecks 
und die Bestimmungsstiicke u, v des Punktes K als Parameter eingehen. 








K 
t 
t 
r v 
v 8 
u 
b 
v u“ 
+— _b, 
Ne 

B, tgs 

\ ids. 

\ vo tee 

\ Be {' 
\ > ail 
." u a c 
+ y- 
OV \ 4 os da — ae 
4 & Z weit ‘“ pr c! x 
oa a 
+ Ps 
\ 1 
\ ye 
e--" 
B! 


Fig. 1. Bezeichnungen 


Herleitung der Formeln 
Der Ortsvektor 
OK =r=x*4+7y 
von K ist die Summe 
OK =0A + AK. 
Dabei schreibt sich der Vektor AK =t im bewegten «v-Koordinatensystem als 
u-+7v, im ruhenden x y-Koordinatensystem als 


t= (u+jv) ef, 


wenn f =arc b den Winkel des Koppelgliedes AB gegen die x-Achse bezeichnet?. 


In der Beziehung 
r=a+f 
oder 


(1) x+y =a(cosa+ sina) + (uw +7v) e” 





3 Zur Erzeugung von f aus 6 durch Drehstreckung vgl. FuBnote 1. 
Numer. Math, Bd. 1 8a 








112 A. WALTHER und H. SCHAPPERT: 


sind alle GréBen bekannt auBer dem ,,Koppelwinkel“ 6 =f(a«). Zu seiner Be- 
stimmung ziehen wir die ,, SchlieBungs‘‘-Gleichung 


a+b+c=d 


heran. Aus ihr gewinnt man 
c? = (d — acosa)? + (asin a)? + b? 
— 2(d — acosa) bcosB + 2(asina) bsin£B. 
Mit den Abkiirzungen 4 
d—acosa=P, asina=Q, 


P24 Q2+ b2~— ct _R 
2b 





entsteht fiir 8 die Gleichung 


(2) PcosB — QsinB=R. 
Durch sie ist sin 8 doppeldeutig bestimmt. Schreiben wir® 
R R?— P? 
Pep or Ph und ror 4 
so folgen aus der quadratischen Gleichung 
(3) sin?B + 2psinB +q =0 


unter der Voraussetzung p?>q fiir sin B die beiden Werte 


sin B, — >: mee 

sin B, p+\p—¢. 
Fiir cos 8 ergeben sich aus der Gl. (2) ebenfalls zwei Werte, und zwar ohne neue 
Vorzeichenentscheidung : 


cos B = Zt Qsnh fir P+0. 


Fiir P =0 ist die Division durch P unzulassig. Dann wird ~?=g, also sin 8 = ~p : 
eindeutig. Man gewinnt doppeldeutig: 


cosB = +)1—?#? fir P=0. 


Allerdings miissen wir fiir das wirkliche Rechnen sogleich auf einen tiefgehen- 
den Unterschied zwischen Theorie und Praxis hinweisen. Der Fall P=0 laBt 
sich wegen der unvermeidlichen Rundungsfehler nicht exakt feststellen. Den in 
der Maschine befindlichen Wert fiir P auf Nullwerden zu priifen, ist theoretisch 
méglich, praktisch aber zwecklos. In dem benachbarten Gebiet P ~ 0 verfalscht 
der Stellenverlust die Ergebnisse. Wir schlieBen dieses Gebiet aus durch Vorgabe 
einer unteren Schranke fiir den Betrag von P. Beispielsweise fordern wir 


(4) | P| =>10°3. 





4 Fiir geometrische Ausdeutung vgl. FuBnote 2. 
5 Verschwinden des Nenners P?+ Q? ist nur méglich fiir P=0, Q=0, also in 
der Anfangslage «=0 eines ,,Drachen‘'-Vierecks mit a=d und b=c. 





Numerische Behandlung des Gelenkvierecks 113 


Wollte man den Sonderfall P =0 dadurch umgehen, daB man zur Bestim- 
mung von cos die Division durch P ganz vermeidet und mit der Formel 
cos B = +]/1—sin®p arbeitet, so waren bei doppeldeutigem sin # lastige Vor- 
zeichen-Entscheidungen ndtig. 

SchlieBlich werden die gewiinschten Koordinaten x und y des Punktes K 
nach (1) gefunden: 
(5) 


x =acosa-+ucosf — vsinBg 
y =asina +usin B+ vcosB. 


Aufstellung des Rechenplanes 
An Hand der gewonnenen Formeln sind wir in der Lage, den Rechenplan 
in algorithmischer Schreibweise® aufzustellen. Er enthalt in einzelnen, fort- 
laufend numerierten Zeilen alle fiir das Programmieren irgendeines elektronischen 


Rechenplan 
Nr. Anweisung 
+ 1) Eingeben a bc d uv uw Aa 


2) >a 
. 3) d—acosas>P 
4) Falls | P| <10-8: Sprung nach 10) 
5) asina>Q 
P+ Q24 b?— c2 














6) =F =>R 
= 

8 R?— P? 

) prpor?4 
& 9) Falls p?2>q: Sprung nach 12) 
‘3 10) Ausliefern « 
3 3 11) Sprung nach 22) 
2 ’ 
sg 12) —p+/p*—q=>sinA, 
ro 
2% 13) —p—Ve?— q=sin£, 
S 14) 1=>% 
S sin B; 
Ay 15) At Gen hi cos B; 


16) acosa+ucos p;— vsin p> x; 
17) asina + usin B+ vcos p> 9; 
18) Falls i= 2: Sprung nach 21) 
19) *#+1>% 
20) Sprung nach 15) 
21) Ausliefern a %, Y, *2 We 
22) a+ 4a>e 
| 23) Falls « <a + 360°: Sprung nach 3) 
} 24) Falls weitere Parameter vorliegen: Sprung nach 1) 
25) Ende 


6 Vgl. etwa H.ScHAPPERT: Automatisiertes Programmieren. Enthalten in: 
Rechnungswesen, Revision, Automation (herausgeg. vom Hess. Inst. f. Betriebs- 
wirtsch. Frankfurt a.M.), S.157—175. Radevormwald-Bergerhof: Mnemoton-Verlag 


1957. 


<«Index-Schleife— 

















114 A. WALTHER und H. SCHAPPERT: 


Rechenautomaten erforderlichen ,,Anweisungen‘‘’. AuBer den mathematischen 
Anweisungen gibt es organisatorische, beispielsweise fiir Eingabe, Auslieferung 
und Spriinge. 

Wir wollen den Drehwinkel « schrittweise zunehmen lassen und geben deshalb 
zusammen mit den Parametern a, b,c,d einen Anfangswinkel a) und einen 
Winkelschritt 4a ein. Nach Berechnung der Koordinaten x, y des Punktes K 
fiir einen Winkel « folgt automatisch die Durchrechnung fiir «+4. So wird 
bei «=a, begonnen und fortgeschritten, bis der Winkel gleich a+ 360° oder 
groBer wird, also die Kurbel eine volle Umdrehung zuriickgelegt hat. 


Wenn fiir einen Wert von « entweder p?<q wird, also keine reellen Lésungen 
der quadratischen Gleichung fiir sin B existieren, oder wenn die Bedingung (4) 
nicht erfiillt, also | P| zu klein ist, lassen wir nur den betreffenden Winkel « aus- 
liefern. In allen anderen Fallen erscheinen zusammen mit « die beiden zugeh6érigen 
Koordinatenpaare x,, y, und %, ¥y2. Man kann leicht die verschiedenen Faille 
bei der Auslieferung genauer kennzeichnen. Zugunsten besserer Ubersicht des 
Rechenplanes haben wir jedoch darauf verzichtet. 


Der Rechenplan ist zyklisch aufgebaut. Eine innere Schleife, die Index- 
Schleife, entspricht den beiden Werten 1 und 2 fiir den Index des Winkels £. 
Eine mittlere Schleife dient zur schrittweisen Abanderung des Winkels «. Wir 
nennen sie «-Schleife. SchlieBlich wirkt der gesamte Rechenplan, wenn verschie- 
dene Parameterkombinationen a, b, c, d, u, v erwiinscht sind, als 4uBere Schleife, 
die wir als Parameterschleife bezeichnen. 


Programm 


Wir haben den Rechenplan durch ein Programm fiir den elektronischen 
Rechenautomaten IBM 650 erprobt. Das Programm wurde im Bell-Interpretier- 
system® aufgestellt, wird jedoch hier nicht im einzelnen wiedergegeben. Es 
umfaBt 63 Befehle und zwei Konstanten. Zur Bildung der Indexschleife wurde 
das im Bellsystem enthaltene Indexregister herangezogen. 

Die acht Parameterwerte a, b,c, d,u,v,%,4« gibt man mit einer Daten- 
karte in Gleitkomma-Darstellung ein. Die mit Gleitkomma errechneten Ergeb- 
nisse werden durch Addition oder Subtraktion einer geeigneten Konstanten in 
Festkomma-Darstellung iibergefiihrt und in Lochkarten gestanzt. Fig. 2, S. 115 
zeigt die mit einer Bull-Tabelliermaschine BSM 120 gewonnene Ausschrift eines 
Satzes von Ergebniskarten. 


Die IBM 650 liefert in 6 sec die zwei zu einem Wert von « gehérigen Punkte 
der Koppelkurve. Bei einem Winkelschritt 4a = 10° dauert die Durchrechnung 





7 ,,Anweisung“‘ halten wir fiir eine bessere Ubersetzung des englischen ,,state- 
ment‘ als den manchmal gebrauchten Ausdruck ,,Satz‘. 

8 Vgl. H. ScHAPPERT: Vervielfaltigte Nachschrift der Vorlesung ,,Programmie- 
ren I*‘ an der TH Darmstadt S.-S. 1957, 34 S. Diese Vorlesung gibt eine Einfiihrung 
in das Programmieren am Beispiel des Bellsystems und erlautert die Anwendung des 
Indexregisters. 

Fiir einen ersten Einblick vgl. auch A. WALTHER: Moderne Rechenanlagen — 
Hilfe und Vorbild fiir den Konstrukteur. VDI-Z. 100, Nr. 24 (21. 8. 1958) S. 1143 bis 
1157. Dort wird die Bewegung des Kreuzkopfes beim Schubkurbeltrieb im Bell- 
system programmiert. 





115 


V1 Xe V2 


Numerische Behandlung des Gelenkvierecks 
4 


no 
= § 
3. 
gs 
Sa 
~ 
o & 
35 
» = 
ot: 
| i 
o 5 
3 
2 3 
2 .& 
‘a 8 
= S 
a 8 
=a 
gs 
™ & 
£0 
-_ 
g 
rit 
Ss 
2 
na. 
23 
Eo 
Vig 
co 
So 2 
= 
so 
3 OD 
—- 
5 ye 
a 
o ¥ 
& YL 
os 


~ 
& 
By] 
= 
o 
QD 
& 
o 
~ 
n 
> 
= 
_— 
o 
OQ 
n 
os 
= 
N 
=] 
= 
3 
pa 
a0 
° 
= 
Ay 
n 
o 
~~ 
Q0 
S 
= 
—_— 
o 
_ 
n 
ra 
3} 
Q 





NANNONNDHOCDA—-HNMNN—ORNNHNOONDAVTANHOMN—ONOD 
INDO—-TRHAEDOONNDANNNAVZTOO—-NDAANO—-ONDAARNNR 
eo e a -_ = s o e e 3° -_ e e ° e e eo o oe o & o a a e o a -_ ° e @ ° @ e ae @ 
—-—-SO-NMNYNORRROONYTN-—-O-NTHOR DAMON WON YNN— 
ooo coocooccocoocoooocoo 


SCNMONONA——-NRD—-O—-ANH—-NA—-DCOTAOaNHTONNNAN — 
ANATNR—-WR-VROVORSND—-ONONRN—-—-NMNNM—-RO-@ 
e e ee e @ eo oe e * e oe o oO e & e e eo o o eo e o e e e ao . e e @ o o e o 
—--ADMDONMN—-OCMWONMNNOO—--NN-DO—-NNRA-—-NHNRDO-— 
NNW---—---- CCCOCCOCO i 8)— oe ae eee NAN 


OCAINMNANHNWIY—-NOWDVTO—-NANWRODOOWVY—-VZ—RNORMNO 

AN—-OONN—-ODOD—-NNAWRAONTRNATNOTT—-NANNOD 
& e e e a oe o e s @ e ae e o e e 6 @ oe es e se e s e o e e o eo eo @ oO o ° o 

A-MNSORDAARAAODKRNHTNOARNNNDO-NANNN—-O—NHYR 
— eee ee ee Ke Ke Ke ee ee coocooooceo 


SO—-ONNDODNNMYYTM—KHATNMNBRSTOWOWOOMOND—NADHe 
ZTANISERNONMNN—-CDODNA—-—-ANMNANYTMNM—-ODAT—ONOAAN 
oeefrfefmfemewemletmlmemUmUch OCmUCch OCmUCc OmhUCUCcOrmhUCc OmhUCUchOmhUCUcOOmhUCcCOrmhUCcOOrmhUCUCcOrmhUCc OrmhUCcOrmhUCcOrmhUCcrmhCcOrmhUC OCmhUCrOCmhUC MMC MhUCUhMOhCchOhCrhOhUCc FMmhC HhCUCUhhUlUrhlhlUr 
NMINNONTMNODVOYTNOK-MNWTORRDDADHRF ON TN—O-NNWOA— 
SC Se Gm ape oooooooccooooo°co°o = 


ecooo000o000ce0o00c0 Co CcCC0C9CCCCCaeaeCAaeCCOCOCCCCCO 
-“NNTNORDAO-NMTNORDAOKNNTNORDAO—-ANNWH 
S22 2 eee ee NNUNNNNANNANMMAAM I 


6. 


Besprechung der Ergebnisse 
c=18 


vor einer Zahl gibt das Minuszeichen, innerhalb einer Zahl das Dezimalkomma 
Wir haben fiinf Falle gerechnet und dabei die Langen a und c der beiden 
Drehglieder und die Koordinaten u und v des Punktes A festgehalten mit den 
a=12 


Werten 
Die iibrigen Abmessungen sind so gewahlt, daB alle nach F. GRASHOF méglichen 


Fig. 2. Ausschrift der Ergebnis-Lochkarten zu Fall III (Fig. 5) mit der Bull-Tabelliermaschine BSM 120. Der Punkt 





116 A. WALTHER und H. SCHAPPERT: 


S 
T 


1S | 


-0\- 








| i L 
0 F 70 15 20 x 





Fig. 3. Fall I: Doppel-Schwinggetriebe mit einteiliger Koppelkurve 


20 


1S 


70 











-~1 270 300 





if L 1 
-§ a 5 70 15 20 x 
Fig. 4. Fall II: Grenzfall zum Kurbel-Schwinggetriebe mit einteiliger Koppelkurve 





Numerische Behandlung des Gelenkvierecks 117 
Falle zustande kommen®. Auf kinematische Einzelheiten gehen wir nicht ein. 


FallI: 6b6=10 d=2}3. 
Wegen 
b+d>a+e 


75 |}- 


0 90 


210- 





-10 








| tL N 





x 


i 
-10 -5 0 5 70 75 20 
Fig. 5. Fall III: Kurbel-Schwinggetriebe mit zweiteiliger Koppelkurve 


handelt es sich um ein Doppel-Schwinggetriebe mit einteiliger Koppelkurve, 
Fig. 3. Die Bezifferung an der Kurve bezieht sich hier wie auch in den folgenden 
Bildern auf den Drehwinkel «. 


FallII: b=17. d=2}3. 


Die Beziehungen a +d =b +c und d>a kennzeichnen den Grenzfall zum Kurbel- 
Schwinggetriebe mit der Kurbel OA und einteiliger Koppelkurve, Fig. 4. 


FalllII: b6=24 d=2}. 


Hier ist a+b<c+d und d>a. Deshalb ergibt sich ein Kurbel-Schwinggetriebe 
mit der Kurbel OA und zweiteiliger Koppelkurve, Fig. 5. 


FalIV: 6=12 d=6. 





® Vgl. etwa R. MULLER: Einfiihrung in die Theoretische Kinematik, S. 75—79. 
Berlin: Springer 1932. 








118 A. WALTHER und Hv ScCHAPPERT: 
Wegen ¢+d=a-+b und d<a liegt der Grenzfall zum Doppel-Kurbelgetriebe 
vor mit einteiliger Koppelkurve, Fig. 6. 

Fal V: b=17 d=6. 


Aus den Beziehungen 
c+d<a+b und d<a 


folgt, daB wir ein Doppel-Kurbelgetriebe mit zweiteiliger Koppelkurve erhalten, 
Fig. 7. 


J 
20 


1§ 


10 \- 


210 








700 


| ' | ! 1 ! | 
-% -70 —5 a 5 70 1§ 20 


Fig. 6. Fall 1V: Grenzfal! zum Doppel-Kurbelgetriebe mit einteiliger Koppelkurve 





x 


Geschwindigkeit und Beschleunigung 


Wir setzen voraus, daB sich die Kurbel OA gleichférmig mit der Zeit ¢ dreht. 
Dann unterscheiden sich die Ableitungen nach ¢, welche Geschwindigkeit und 
Beschleunigung liefern, von den Ableitungen nach dem Drehwinkel « nur um 
konstante Faktoren. Es geniigt also, Ableitungen nach « zu bilden. Daher gibt 
die Anordnung der Bezifferungsstriche fiir « auf den Koppelkurven eine anschau- 
liche Vorstellung iiber die Geschwindigkeit. Insbesondere heben sich die Tot- 
lagen heraus. 

Diese Betrachtung 14Bt sich leicht numerisch ausgestalten. Man erweitert 
den Rechenplan durch erste und zweite Differenzenquotienten der Koordinaten 

















Numerische Behandlung des Gelenkvierecks 119 


x, y hinsichtlich a. Hierfiir berechnet man zusiatzlich Werte x, y fiir zwei riick- 
warts und vorwarts eng benachbarte Winkel. Mit ihnen bildet man die Dif- 
ferenzenquotienten, nicht mit dem friiher benutzten Winkelschritt 4a. Auf 
diese Weise erleidet man keinen Genauigkeitsverlust gegeniiber den Koordinaten 
selbst. 

Auch formel 14Biges Vorgehen bereitet keine Schwierigkeiten. Wir kenn- 
zeichnen die Ableitungen nach « durch einen Strich. Aus (5) findet man 


, 


x’ = — asina — (usin B + vcos ) p’ 


y= acosa-+(ucos Pf — vsinf) p’. 


20} 120 90 


15 |}- 


0} 


- 15 |- 








e' ! mt | J = 
= 15 =10 =5 0 5 70 75 20 


Fig. 7. Fall V: Doppel-Kurbelgetriebe mit zweiteiliger Koppelkurve 





* 


Fiir £’ entninmt man aus (2) die Beziehung 
p= P’ cos B — Q’ sin B — R’ 
“S P sin B + Q cos B 


Sie 14Bt sich durch Heranziehen der Definitionen von P, Q, R winformen zu 





p= b[{(P — d) sin B + Qcos f] — a[Psina+ Q cos «] 
-" b[P sin B + Q cos B] ; 
Damit verfiigt man iiber die notwendigen Formeln, um den Rechenplan S. 113 
fiir die Berechnung von x’ und y’ zu erginzen. Ahnlich schreitet man zu x’’ 
und y” weiter, was wir jedoch nicht im einzelnen ausfiihren wollen. 











120 A. WALTHER und H. ScHAppeRT: Numerische Behandlung des Gelenkvierecks 


Legt man das Differenzenverfahren zugrunde, so braucht der Rechenplan im 
wesentlichen nur durch eine Schleife zur Beriicksichtigung der Nachbarwinkel 
erganzt zu werden. Er wird damit einfacher als der Rechenplan bei formel- 
maBigem Differenzieren. Die Rechenzeiten der beiden Vorgehensarten unter- 
scheiden sich nicht wesentlich. 


SchluBbemerkungen 


Unsere Ausfiihrungen bilden ein Beispiel fiir die Anwendung moderner Rechen- 
anlagen auf technische Probleme. Dariiber hinaus sollen sie die Einheit von 
Theorie und Praxis, von Formeln und Numerik in der Mathematik beleuchten. 
Vor allem aber hoffen wir, daB aus der Analysis und dem Zahlenrechnen heraus 
die ,,Freude an der Gestalt‘‘ emporsteigt, welche dem Geometer eigen ist. 


Zusatz bei der Korrektur, §. Marz 1959: Wahrend der Drucklegung erschienen die 
beiden folgenden Aufsatze, die ahnliche Fragen behandeln: FREUDENSTEIN, F.: 
Structural Error Analysis in Plane Kinematic Synthesis. 7 Seiten. Amer. Soc. Mech. 
Engrs. Paper No 58—SA-12. — FREUDENSTEIN, F., u. G. N. SANDOR: Synthesis of 
Path-Generating Mechanisms by Means of a Programmed Digital Computer. 9 Seiten. 
Amer. Soc. Mech. Engrs. Paper No. 58—A-85. 


Institut fiir Praktische Mathematik 
der Technischen Hochschule Darmstadt 


(Eingegangen am 16. September 1958) 





Numerische Mathematik 1, 121— 134 (1959) 


Numerical study of the representation of a totally positive 
quadratic integer as the sum of quadratic integral squares* 


By 
HARVEY COHN 


1. Introduction 


The type of theorem that might come to mind from the title of this paper is 
that every positive integer is the sum of four squares, as was proved by Lac- 
RANGE [2]. The object of this paper is to describe a series of experiments with an 
electronic computer directed at obtaining a plausible conjecture to apply to the 
analogous representation problem for quadratic integers. 

To set up the corresponding theoretical problem, we first specify m, a square- 
free positive integer and we make the following distinction based on m: 


aes m + 1 (mod 4) 


(1.4) 
=2 mz=1(mod4). 


The quadratic integers are the numbers [3] 


a+bm' 

© eee 
Now here, Roman characters shall denote ordinary integers while Greek charac- 
ters shall denote quadratic integers (which may become specialized to ordinary 
integers). If we expect to write « = > é? then clearly two things must be valid, 
first of all x and its conjugate «’ must be positive, this is referred to as (otal 
positiveness. Secondly, when /=1, (and m ==1 mod 4), the value of b must be 
even, as is the ‘‘middle”’ coefficient of (x + ym*)?. Hence we use the new notation 
and restrictions to embrace both (a +-bm})/2 and a + 26m? in the various cases, 
namely 


(1.2) a =b(mod/f). 


[a,b] = (fa + 2bm!)/f* 
(4.34) a = b(mod/f), 
Pa>4b?m, a>o, b20. 


Thus our problem of decomposition into squares is henceforth restricted to the 
(totally positive) couples [a, b], but the variables 


E; = (x%,+ jm f 
(4.32) a yi m*)/ 
x, = y; (mod f) 
range over all quadratic integers. Our problem can then be stated as follows: 


For a given couple [a, b|, we must find the minimum number of squares Q required 





* DonaLp A. FLANDERS in Memoriam (1900—1958). 








122 HARVEY COHN: 


to achieve the representation 
Q 
(1.4) (a, 0) =e 
1 


or, in terms of rational arithmetic, 


Q Q 
fa=>d4m>y3 
(1.5) Q 
b=) x9; x; = y, (mod /). 


If no such Q exists we might say Q =O, figuratively speaking. 


The best theoretical result is probably that of SIEGEL [5] to the effect that 
for each m an integer g, exists such that for any totally positive «, the de- 
5 


composition g?a = >) é? is valid. Clearly such a result is not the most “‘desirable”’ 


1 
by virtue of a result of Maass [4] that when m=5, 0< QS} (or three squares 
then are always sufficient). 

As we shall describe in detail later on, from a sample consisting of the first 
3912 couples [a, b| for 37 different values of m, certain interesting conclusions 
emerged concerning Q, the number of squares required. When m=2 or 3 the 
evidence indicates that three squares still are enough as well as when m=5 (the 
only limitation being that in accordance with the notation [a, b] is specialized 
to a+2b 2! or a+2b6 33, etc.). When m=6 or 7 four squares are required and 
some couples [a,b] appear for which no number of squares suffice (Q =0), but 
it seems that for couples [a,b] with norm sufficiently large three squares are 
again sufficient. (Here the norm is N(«)=a«’.) For other m the situation is 
more complicated since some couples [a, b] exist requiring Q = 4, 5, or 0, but the 
overwhelming numerical evidence indicates that Q has no value other than 14, 2, 
3, 4, 5, or O, i.e., a totally positive integer is representable as the sum of five or fewer 
squares or else no number of squares will suffice. 


A somewhat more precarious yet sweeping conjecture resulting from this 
numerical study is that when m +1 (mod 8) for N([a, b]) sufficiently large three 
squares suffice. In fact even when m=1 (mod 8) a modified conjecture seems 
warranted by the evidence, as will be explained later on. 

We begin by considering a small portion of the theory that is relevant to the 
computation ; then we present the computational procedure ; and finally we discuss 
the results. 


2. Density argument 


In the case of rational integers a very simple density argument [2] makes it 
clear that not every integer is the sum of two squares. A similar density argument 
shows that not every quadratic integer is the sum of two squares. Aside from the 
intrinsic interest in such a discussion we shall see that the use of the couple [a, 5] 
instead of « (of equ. (1.2)) becomes very natural in terms of the simplicity of the 
result. Furthermore an asymptotic estimate provides a (negative) check on the 
implied hypothesis that our finite sample of [a, b] is “‘large’’ for a given m. 





Study of the representation of a totally positive integer 123 


We let A denote the number of couples [a, 6] that are listed (lexicographically) 
for each m. For each a, the values of b go as high as fa/(2m!) (see equ. (1.31)) 
in steps of /, hence denoting the highest a by k, we find 


(2.1) A ~¥ al(2mi) ~ k?/(4m!). 


In other words, among the first A couples, a goes as high as 
(2.2) max a =k ~2A! mi. 


On the other hand we can count the perfect squares among these A couples 
by noting that, from equ. (1.32), they are of the form (dropping subscripts) : 


(2.3) § = [(x? + my*)/f, xy] =[X, Y] 
’ x=y(modf) x>0, y>0. 


But the area of the positive quadrant of the ellipse 
(2.4) fkrax*+my? 
is 2 k}/(4m4), and using the congruence condition on x and y we find that the 
number of squares [X, Y] is . 
(2.5) s ~ 2k] (4m) ~ tA4/(2m!b). 
Thus if the couples [a,b] are enumerated lexicographically the s-th perfect 
square will appear asymptotically as the (s?4m!/z?)-th couple but the value of 
a will be governed by the linear relation: 
(2.6) a~4mis/x. 

Now, restoring subscripts so that &?=[X;,, Y;], we see [a, b] is the sum of 
two squares if and only if one of these relations hold: 


Thus, speaking in the asymptotic sense, for each pair of perfect squares two 
sums of two squares are created (by adding and by subtracting the Y;). Expressing 
our problem in terms of the s,-th perfect square (&7) we have the inequality 
| k= 4m's,/x1 + 4m! s,/n 


(2.8) eal 


of which there are (2k/4m!)?/4 =w solutions, yielding asymptotically no more 

than 

(2.9) 2w ~ 2? A/8mi 

couples which are the sum of two squares (with repetitions not excluded). Inci- 

dentally 2w/A <1 for m= 2 (A-— oo), demonstrating the necessity of three squares. 
Summarizing these estimates for our special case where A happens to equal 

3,912, we find 


(2.20) max a =k ~125mi, 
(2.50) “squares” = s ~ 98/mi, 
(2.90) “‘two-squares’”’ << 2w ~ 4826/m!. 








424 HARVEY COHN: 


3. Associates and norm estimates 


q 
Every decomposition a=>e leads to a decomposition ay?= >’ (yé;)? but 

1 1 
conversely «y? might have a decomposition into at most g squares without « 


having one. Clearly the decompositions of « and ay are in one to one cor- 
respondence when 1/y? as well as y? is an integer or y is a so-called unit. If 
y?=(u +vm!)/f then this means N(y?) =1 or 


(3.4) u*— mv* = f?. 


According to the well-known theory [3] all such y? are powers of a so-called 
fundamental (square) unit which we denote by ,? and the numbers a+?" 
(n =0, 1, 2,...) are called (square) associates of «. It is obviously not necessary 
to test more than one of them for decomposition into squares. (A necessary but 
by no means sufficient condition for two numbers to be associates is that their 
norms be equal.) 

Specifically, unless « is the square associate of a rational integer (a =hu+**'), 
then among the set of totally positive (square) associates 





(3.2) au=?"—(4 + Bm')/f, (A =Bmod/f), 
one exists for which 
A yutf 
6.3) 4224 
where 
(3.4) p2=(u+vm')/f, (wu =vmodf) 


is a square unit (taking u,v positive for convenience). The ratio A/B, in fact 
achieves a maximum when A and B are as small as possible. 

To prove these statements, note first of all that the norm of a=?" or 
(A?— m B?)/f?, is independent of ”, proving the second statement. Hence let 
A/B(>m!) denote the maximum. It is easily verified that if inequality (3.3) is 
false either 


(3.51) atts |F)>= —>m$ 
or 
(3.52) Sth a e > |F > m'. 


In the first case, defining 
A*—B*m> _ |A|+|Bi|m! u—vm 
f f f ‘ 
and in the second case, defining 
A*+B*m! _ |A|+|Blm* utum! 








f f f 
we obtain a contradiction, for A*/B* >| A/B| as can be verified with a little labor. 
Hence the problem of representing any couple [a, 6] can be simplified to the 
case where 


(3.6) fa/2b> (u+/fjv. 











Study of the representation of a totally positive integer 125 


We shall then call [a, b] primitive (including the special case where b =0). Then, 
easily 

(3-7) N((a, b}) = 2a*/f(u + f) = No(a) = MN. 

Thus in a listing of all primitive [a,b] complete through the values a<k, the 


infinitely many omitted couples are square associates only of couples whose norm 
exceeds the value N(f). In principle, the larger N), the more “adequate” our 


finite sample of couples. 


4. Description of the computation 


The object of the computation is to find the minimum number Q for which 
the equality (1.4) could be achieved. No effort is made to count the number of 
such representations for a given couple, although in other connections, such 
information can be of value [J]. 

A simple way of performing the computation by hand is to first list the 
couples [a, b] in lexicographic order. They are of course finite in number below 
a given couple. Next one checks to see whether [a, 6] is a perfect square, i.e., 
whether the equation 





fa+2bm! a x+ym'\! _ ge 

(4.1) Fie / me) 
%=y  (mod/f) 

is solvable for integral x, y. This reduces to 


—. 


4.2 
(4.2) hie ee 


(which are easily seen to be solvable only for x = y(mod /)). It is elementary to 
verify that system (4.2) is solvable if and only if 


(4.3) Pat— 4m? b? = p? (= [x? — mi y}*) 
is the perfect square of (say) a positive integer f, and if one of the systems 


fa=x+my? 


4 
ei +p=x*—my* 


is solvable for integers x and y. 

At this point we know which couples [a, b|] are perfect squares and these are 
listed as couples {1; a, 6} the “1” being the minimum Q for equation (1.4). The 
couples which are not perfect squares are listed as {0; a, b} for uniformity. We 
now take the squares {1; a"), b{)} enumerated separately in lexicographic order 
and consider the sums or differences 


as + al) = a’ 


(4.5) , 
jap oh] =o" 


Then if this value [a’, b’] does not appear as a perfect square, the couple is marked 
as {2 ; a’, b’}. When we are finished, we imagine such couples enumerated lexico- 


graphically in the form {2; a{?), b{?)}. 





126 Harvey Coun: 


In the more general stage of induction suppose all couples are marked which 
require Q squares or fewer {q; a{”, !}, 1<q<Q, and q being one of Q different 
index symbols. The object is to mark those requiring exactly (Q +1) squares. 
We restrict ourselves to the sets {1, a”, b{} and {Q, al), b{?}. We then consider 
for 7 =1 

‘ — gl) 1) 
(4.6) ater Aye 
7 1 
as 7 ranges over its values (for the perfect square couples). When we encounter 
an [a’, b’| which does not belong to any smaller g (< Q) we label it {(Q +1); a’, b’}. 
We then let 7 =2 and repeat (4.6) with 7 variable, likewise for j7 =3, etc. until 
all couples requiring Q@+1 squares are labelled. Then they can be indexed 
lexicographically as {(Q +1); af{@t?, b{°+»}. Of course the value of 7 ceases to 
be incremented when in equation (4.6) the value of a’ goes out of range for the 
first 7 and likewise 7 ceases to be incremented when the like happens for the first 7. 

Now since the listing of couples [a, b] is finite it is manifestly clear that at 
some value of Q no triples will be labelled Q +1 or, in other words, some couples 
will require Q but none will require Q +1 squares. The unlabelled couples may 
be labelled by Q =0. 

We can eliminate associates by use of the inequality (3.3). If, however, the 
values of «? are not known, some assistance in spotting associates can be gained 
from the norm N([a, d}). 

As an illustration, here are the couples {...; a, 6} listed in lexicographic order 
(on [a, b]) before and after the determination of the Q(>1).for m= 1}. 








Before... After 
(45 20) s 46; BO} 
{0; 4,0} ... {2; 4,0} 
10; $4)... 16; 5,9} 
{0; 6,0} ... {3; 6,0} 
45 KH. 4-6} 
14; 60) ... (9; &O} 
{0; 6,2} ... {@; 8,2} 
O; O37 « th GG 
{0; 10, O} {2; 10, 0} 
{0; 10, 2 {0; 10, 2 
{0; 11, 4} {3; 11, 4} 
{1; 14, 3} {1; 14, 3} 
{0; 12, O} {3; 12, 0} 
{0; 12, 2} {0; 12, 2} 
{0; 13, 1} {4; 13, 1} 
{0; 13, 3} {2; 13, 3} 

etc. etc. 





Thus the first item on the list [2,0] =1 is easily a perfect square and the 
last perfect square in this list is [11, 3] =(3 +13+)?/4. Furthermore [13, 1] = 
(13 +434)/2 requires Q =4 squares (in fact [13,1] =[7, 1] +3[2,0]), etc. The 
interpretation, as well as the procedure for determining Q, should be clear from 
the sample. 

















Study of the representation of a totally positive integer 127 


5. The machine computation 


The machine computation follows the course of the hand computation just 
described. 

The electronic computer that was used is GEORGE, a binary two-address 
sequentially-programmed stored program computer with a magnetic core memory 
of 4096 forty bit words. The words are represented as ten (4 bit) sexagesimal 
integers grouped as follows [B, op, A]. Here B and A are addresses in memory 
occupying three sexagesimal digits or 12 bits each (2!2= 4096) and the “op” or 
operation, incredible as it may seem, requires four sexagesimal digits or 16 bits! 
The presence of 2!®= 65,536 instruc- 


tions is explained by the fact that Table 1. Complete list of output couples for 








there are 24=16 basic types modified 4 Ries MS 
by the 12 extra bits with great facility of “ ° Aen) 
to specify either the roles of the A, B 6 ; P oa 
addresses (for data or instruction 10 ‘ 4 76 
usage), or the monitoring of over- 13 2 4 73 
flow, or the use of relative addresses, 21 2 4 345 
or the clearing of accumulators, the 25 4 4 241 
sign of the operands or result, or any = ; : on 
number of items too numerous to 30 1 4 876 
repeat. This programming facility, to- 34 3 4 940 
gether with a high speed of 20,000 36 7 4 120 
operations per second, made the com- 46 9 4 172 
‘ ‘ ‘ai ha 52 5 +t 2104 
putation a practical possibility. 55 9 4 1081 
The program was set up in three 82 15 4 1324 
phases on paper tape, all of which 85 16 4 1081 
were self loading on the main tape a = : Bs 
reader. 











In the first phase the machine reads in the value of m from an auxiliary paper 
tape reader and generates, internally, in the last 3,912 memory words the couples 
{qo; 4, 6} packed into the [B, op, A] portions of the memory word respectively. 
Here, naturally, the couples [a, b] are formed lexicographically and gj =1 when 
[a,b] is a perfect square and g,=0 otherwise (for convenience). The machine 
punches out the last value of [a,b] (in sexagesimal form). The first 184 
(= 4,096 — 3,912) words of memory were devoted to the program in each phase. 

In the second phase the machine starts the tally process as described earlier, 
obtaining Q, the least number of squares required to represent [a,b], leaving 
{Q; a, b} in each memory position. 

The third phase of the program is the output of couples. The machine first 
takes in (from paper tape on the auxiliary reader) the values u +/,v that cor- 
respond to a given m, so that no values a, b will be punched out unless 


(5.1) —(u+f)b+vaZ0. 


Thus the redundancy of square associates can be suppressed. (The dummy 
values u-+- {=v =O can be used to bypass the redundancy suppression when u, v 
are unavailable.) Then the machine examines in memory the triples {Q; a, }} 











128 HARVEY COHN: 


and produces as output the values a,b; Q, N (where N = N([a, 6])) packed into 
two words in decimal form only for those cases where Q =0 and Q=>4. When 
this process is completed the machine tallies the couples with various values 
of Q, including both primitive and nonprimitive couples. 

For the sake of brevity we omit the output couples (i.e., the a, b; Q, N) but 
make free references to this information in order to support statements or provide 
examples for this work. A complete set is given for m=6, however, as an 
illustration in Table 1. The rest of the information is in Table 2. 

For each m the cases took an average of 45 minutes to run. The program 
for the second phase required the most skill since the intensity of iteration was 
greatest. A great deal of output time was required for the third phase and in 
some of the later cases the time was cut by use of an alternate program which 
punched out only Q=5 and Y=0O or sometimes only Q2 4. 


6. Scope of the experiment 


The problem was run for the following sets of values of m for which results 
are recorded in Table 2: 

(a) The basic run: square-free m from 2 to 41 inclusive. 

(b) Medium run: m = 86, 87, 89; 173, 174, 177; 255, 257, 258. 

(c) Large run: m = 1,487, 3,467. 

(d) Square-divisor run: m= 8, 18, 32, 50; 12, 27, 48, 75; 20, 45, 80, 125; 68. 

For values of m<100 the appropriate «+/, v were obtained by squaring the 
basic units [6]. The basic run displays a growing regularity in the tally distribution 
(of Q) with the exception of the m=41 (mod 8) which are marked with a(*). 
As a result larger m were tried to see if the regularity would eventually be lost, 
but this so-called ‘medium run”’ still displayed regularity. Finally some “‘large”’ m 
were used at random and it became immediately evident that m was too large 
for the fixed sample of 3,912 couples. For instance the cases where Q =5 dis- 
appeared in the large run, although this only meant they were pushed ahead 
of the sample being examined, since such cases can not disappear completely 
(as we shall note in § 7 below). 

Another way of seeing the increasing, deleterious influence of the growth 
of m is by the asymptotic formulas (2.20), (2.50), and (2.90). First of all formula 
(2.20) is the simplest and it holds remarkably well for all m. Formula (2.50), 
however, becomes an underestimation of the tally for Q =1 as m becomes large. 
In fact even for m=255, 257, and 258, the tally for Q=1 is quite irregular 
jumping from 38 to 28, and to 38. Furthermore, formula (2.90) is an extreme 
overestimation of the tally for Q =2 when m is small indicating a hight rate of 
repetition of the representations as a sum of two squares; but as m becomes larger 
the formula becomes surprisingly good (in the medium runs) indicating a scarcity 
of repetitions, as the squares are presumably “too thin to be interesting’. Never- 
theless, in the large run irregularities again occur, without any apparent 
explanation. 

The non square-free m will be discussed in § 9 (below). 

The omitted output couples are too numerous to describe in any detail. Ail 
we can hope to do is try to see from the entries if there is some explanation for 








Study of the representation of a totally positive integer 


Table 2. Combined output table 


129 




















Last couple Tally of couples for given Q 
m tf u+f v No 
a b 0 1 2 3 4 5 
(a) 2 | 1] Basic 4 2 1147 143 0/91 | 1891 | 1930 0 0110658 
3 1} run 8 4 1163 |18 0 |83 | 1806 | 2023 O O} 6561 
5] 2 5 1 | 186 136 0|72| 1457 | 2383 O O} 6845 
6] 1 50 20 | 193 |32 3170] 1456 | 2363 20 Of 1475 
7 1 128 48 | 201 }12 3170) 1378 | 2432 29 18) 625 
10 1 20 6 | 219 |27 8 |63 | 1198 | 2547 93 3] 4753 
11 1 200 60 | 224 133 10 |62 | 1231 | 2519 87 3 498 
13 | 2 13 3 | 236 114 11158] 1035 | 2713 92 3] 4249 
14 1 450 120 | 255 |23 16]59] 1096 | 2599 136 6 287 
15 1 32 8 | 242 | 24 20 |58] 1070 | 2602 156 6] 3631 
17 1*2 68 16 | 2521/28 17154] 859] 1808 |} 1154] 20 927 
19 1 57800 13260 | 257] 9 26156| 966] 2601 252 11 3 
21 2 25 5 1265 |57 26|50| 907 | 2696 221 12] 2788 
22 1 77618 16548 | 266 |20 34155 901 | 2609 296 17 2 
23 1 1152 240 | 269 |19 37154] .934 | 2602 272 13 125 
26] 1 52 10 277123] 45/53} 885]2555]| 350] 24] 2930 
29} 2 29 5 1288] 6 44|50| 811 | 2631 349 | 27] 2841 
30] 1 242 44 |287/29] 58/51} 803] 2565| 405] 30 676 
31 1 4620800 829920 | 290] 4 58|51 790 | 2525 461 27 1 
33 1*2 2116 368 | 297 |23 54149] 672] 1890 | 1177 70 42 
34 1 2450 420 | 296 |16 70 |47 758 | 2488 508] 41 71 
35 1 72 12 | 298 |20 72147 778 | 2520 4581 37] 2451 
37 | 2 148 24 | 305149] 65/46] 703 | 2563; 497] 38 625 
38 | 1 2738 444 | 304 |20 83 147 763 | 2485 492] 42 68 
391 1 1250 200 | 306 |18 87 |47 736 | 2447 557 | 38 149 
41 |*2 4100 640 | 313/41 75143 648 | 1860 | 1192 | 94 24 
(b) 86 | 11216528050]23 348820 | 372] 5] 263/42] 513]|1998| 967 |129 1 
87] 1 1568 168 |373 | 5] 268/41] 513 | 2010) 955 ]|125 177 
89 [*2 1 000 004 106000 | 380] O] 220/37] 481 | 1666 | 1294 | 214 1 
173 | 2] Medium 443 123] 527135 372 | 1497 | 1211 |270 
174 1}Trun 441 111] 684/38] 422 | 1334} 1127 | 307 
177 |*2 450] 4] 546/35 352 | 1362 | 1297 | 320 
255 1 484 |} 8]1225/38] 328 952 | 1027 | 342 
257 |*2 493 }11] 868}28|] 316] 1171 | 1164 | 365 
258 | 1 485 {141248 |38| 329] 946] 1010 | 341 
(c) 1487 1 Large run 738} 713174127] 224 366 121 O 
3467 | 1 901 513011 |30| 270 453 148 10) 
(d) 8 | 1] Square 208 | 1 6/67| 1154]|1710} 746|229 
18 | 1] divisor 253127] 25355] 983 | 2624] 213] 12 
32 | 1]runs 292] 9} 634/50} 735|1917]| 876/271 
50] 1 326 | 2] 121 147 395 | 2290 698 | 61 
12} 1 229 |27 14 |62] 1034 | 1833 729 | 240 
27} 1 280 }13] 47153] 850]2595| 344) 23 
48] 1 322118] 116/46] 6541] 1855 965 | 276 
75 1 359 |20] 215 143 543 | 2109 885 | 117 
20} 1 260 115 31455 875 | 1909 806 | 236 
4512 321 7 84 143] 669 | 2463 600 53 
80 | 1 365 12] 237143] 515 | 1766]) 1058 | 293 
125] 2 413; 7} 349137] 452 | 17444 1122 | 211 
68 | 1 351| 7] 196144 554 | 18374 1013 | 268 


















































130 HARVEY COHN: 


cases where Q = 4, 5, or 0. Now even in the simplest case (m= 6) for which some 
Q=4 or some Q =O, we can not be sure we know all such primitive couples. 
If we examine Table 1, for instance, we see the last entry is Q =4 for [151, 23] 
‘while the maximum a is 193. Most likely other primitive couples exist for Q = 4, 
but it would be plausible that their totality is finite. On the other hand the 
instances where Q=5 or Q=O seem easy to take into account at least for 
smaller m, as we shall do now. 


7. Combinatorial curiosities: @=—0, @=5 


Some of the primitive couples [a,b] for which Q=0 or Q=5 are fairly 
transparent on the basis of magnitudes and they probably constitute a com- 
binatorial curiosity. Thus the equation (1.5) for ‘“‘small’’ a, 6 (by comparison 
with m) might constitute a manifest impossibility for any Q (or at least for 
0<@Qs4). It should be borne in mind that a “combinatorial impossibility” 
argument applicable to a ‘‘small’’ « = [a, b] is equally applicable to the arbitrarily 
larger values **”. Hence the non-representability can never be truly ‘“‘trans- 
parent”’. 

For instance, consider these sets of conditions on [a, b]: 


7.11) m = (mod 4) (f = 2) 

; asm, b>0, b?+ m> 2a, a,b odd; 
(7.12) m = 1 (mod 4) (f = 2) 

asm, b>0, a,b even; 

m + 1 (mod 4) (f = 1) 

(7.43) axm, b>0; 
(7.14) m +1 (mod 4) (f = 1) 

: m<as2m, b&+m>a, b>0. 


(Of course overriding all this is the total-positiveness of [a,b].) It is easily 
verified that Q=0 for each case, by seeing that >) y?=1 in equation (1.5), 
causing a contradiction. Thus, more simply, when m= 1 (mod 4) then [m — 4, 2] 
has Q=0, and when m +1 (mod 4) then [m,1] has Q=0. Of course the total 
positiveness restricts m=6 in the first case and m=1}3 in the second. On 
observing the outputs of couples we find that formulas (7.11) to (7.14) explain 
all cases where Q =O for mS10, but for m= 11 a single (primitive) exception 
[34,5] appears (i.e., 34+ 5 - 114 is outside these formulas but still not representable 
as any sum of squares). While it is possible to explain this exception by especially 
contrived conditions somewhat like (7.11) to (7.14), this process is increasingly 
futile, since e.g., when m = 30 the (primitive) couple [151, 32] appears for which 
Q =0 and in which the a, b are no longer intuitively “small’’ compared with m. 

We next consider similar conditions that call forth cases where Q=5. For 
this purpose it is convenient to use the letter g to stand for a rational integer 
requiring four (rational) squares for its decomposition, i.e., 


(7.2) g=4(8t'—1), #20, #21. 








Study of the representation of a totally positive integer 131 


Thus in both the following cases: 


m = 1 (mod 4) 
(7.21) 2as3m-4 2, bodd 
2a—m=b?+¢ 
and 
(7.22) coors 
b>0, fa—m=b?+¢8 


we find that equation (1.5) will lead (as before) to >’ y?=1, so [a, b] requires five 
squares. Thus, more simply, if m = 1 (mod 4), then [m+ 8, 1] for m= 10 requires 
five squares, and in the corresponding case where m=1 (mod 4), the same is 
true of [m+6,1] for m2=17. The case m=1}3 displays only one (primitive) 
couple with Q=5, namely [24, 4] which does not easily fit into a formulation 
like (7.21) or (7.22). 

‘Thus for m large enough, cases where 0 =5, Q =0 always occur. 


8. The case where m=1 (mod 8) 


An inspection of the Table 2 indicates that when m=1 (mod 8) the number 
of instances where Q =4 and Q=5 becomes unusually large, more so than a 
“combinatorial curiosity” argument would imply. An adequate explanation goes 
necessarily into algebraic number theory but we can see in an elementary way 
that if m=41 (mod 8) and A is a positive integer defined by m=h? (mod 32), 
then for 


(8.1) a +bh+2=0(mod 16) 


the couple [a, b] can not be represented as the sum of three squares. 
For proof, note that from equations (1.5) with /=2, we find that if three 
squares did suffice, then 


3 3 
2a = > x? + h? > y? (mod 32) 
(8.2) ‘ . 
b=) x95. 
1 


3 
Thus 2a+2bh+4= >)(x;+hy,)?+4=0 (mod 32), which is readily seen to be 
1 


impossible on the basis of parity. 

Actually it is necessary to see this result in its deeper aspect, namely in 
terms of the fact that for m=1 (mod 8) the rational prime 2 splits into two 
different (conjugate) factors 3, e.g., 


(8.3) 2= 0102 


where 9; may be a principal (or non-principal) ideal factor. Thus 9? is an ideal 
of norm 8 which contains only rational integers which are multiples of 8 and 
consequently, modulo 93, every algebraic integer in R(m)! is congruent to a 











132 HARVEY COHN: 


unique rational integer modulo 8. Hence by the very same argument as in 
rational number theory, when « = —1 (mod 93) then « is not the sum of three 
squares. This congruence condition is precisely (8.1). 


If we assume gj are principal ideals (as is true when m<100), then by the 
same argument as in rational number theory, when «=—1 mod 9? then 0?!« 
also is unrepresentable in three squares, likewise for 4‘«, etc. (Note that 4¢= 
(0, 02)*‘= oF’ (mod 03), since 9.= an odd integer.) 

By a similar parity argument we can go further and say that if any couple , 


divisible by 0;, requires five or a larger finite number of squares then so does 
4 


o?8. Here we reduce the equation off = > & to rational residues (mod 8) and 
j=1 
note that >) &?=0 making each &, divisible by @,;, causing a contradiction. 

If 9? were not principal ideals, we could still say that if « satisfies the con- 
gruence (8.1) belonging to «=—1 (mod 9?) then any couple representing an 
integer of the form «q?/y?, where is an integer divisible by g;, will not be 
representable in three squares or fewer. (Note that the absence of principal 
ideals prevents us from cancelling out the fraction g/y.) The previous remarks 
(on requiring five squares), however, would not apply unless the 07 were principal. 

An examination of the output couples for m=17 verifies these statements. 
There 17 = 7? (mod 32), and 2=9,0,, where 9;=(5 +173)/2. The congruential 
condition (8.1) on couples [a, b] becomes 


(8.4) a+7b+2=0(mod 16). 


Such couples can not be represented in three squares (or fewer), but this does 
not necessarily mean that four suffice. In fact, for some couples [a, b| satisfying 
this last congruence, an examination of the output couples reveals Q =0 only 
for [5,1] =0,, [7,1] =03, [42, 2], [16, 2], [18, 4], [31, 7] =0?. But 07 =[23, 1] 
appears with Q =5 and so does [28, 4] =e? 03, [40, 8] =efo3 and [62, 14] =ef os. 
Thus every 0; 03, where 7+-s is odd =7, is the sum of five squares (and no fewer 
squares) and from the numerical evidence these are the only numbers for which 
Q =5 when m =17 (ignoring square associates as usual). 

Naturally for higher m a result of such simplicity would not hold, yet similarly 
an examination of the output couples for m=}3}3 suggests that Q =5 only for 
couples [a,b] whose norms equal a non-negative power of four multiplied by 
232, 256, 352, 496, 544, or 768 in a fashion similar'to m = 17. 


9. Non square-free m 


Finally, purely in an experimental vein, runs were made for thirteen values 
of m having a square divisor. The calculation was run the same way, specifically, 
f is defined according to the residue class of m (and not its square-free kernel) 
and [a,b] means a+2bm! or (a+bm!)/2, etc. Likewise [a,b] is (or is not) a 
perfect square according to equations (4.1) to (4.4) not according to the field 
R(m). 

No attempt is made to analyze the output couples in any detail, but one 
striking feature is too obvious to overlook: the tallies for Q=4 and (more so) 





Study of the representation of a totally positive integer 133 


for Q=5 are unusually large when m ts divisible by 4. This is a condition surpris- 
ingly similar to square-free m=1(mod 8). A partial explanation is quite 
elementary: 

If m=0 (mod 8), then 


for a=0 (mod8), b=1(mod2), Q2=5 or Q=0 
for a@=7 (mod8), 6 arbitrary, Q=4 or Q=0. 
If m= 4 (mod 8), then 
for a=0 (mod8), 6=1 (mod2), Q24 or Q=0 
for a=}3 (mod8), b=1(mod2), Q=4 or Q=0 
for a=4(mod8), 6b=1(mod2), Q2=5 or Q=0 
for a=7 (mod8), 6=0 (mod2), Q=24 or Q=0. 
These results are all easy to see. For example, let m=4, a=4 (mod 8), b=1 


(mod 2). Then equations (1.5) become 


Q Q 
4=a=)> 344) 93 (mod 8) 
I r 


(9.1) 0 
> x; 9; = 6 = odd number, 
1 


which can easily be seen to be invalid if 0< Q<4 on various assumptions as to 
the oddness or evenness of x; and y;,. 


Resume 


Altogether a total of almost 200,000 totally positive numbers from different 
fields were decomposed into squares; in no case were more than five squares 
required, although in many cases no number of squares sufficed. For some 
quadratic fields, from our evidence it would seem safe to completely characterize 
the couples for which Q=5 or 0, particularly when m<1}3; and furthermore, 
for m=17 or 33 it seems possible to characterize all cases where Q =4, 5, or 0. 

The whole calculation seems to be pointed toward the result that three squares 
are sufficient except for ‘‘special’” cases. Incidentally, the analytic methods of 
SIEGEL and Maass run parallel to the calculation in that these methods involve 
the third, fourth, and fifth power of a theta-function. The numerical evidence 
would therefore suggest that their methods point to an analytic (or even a purely 
algebraic) proof of the futility of using more than five squares in any case. 

The work was supported in part by the U. S. National Science Foundation 
Grant G-4222 and the computer services were contributed by the Argonne 
National Laboratory of the U. S. Atomic Energy Commission during the summer 
of 1958. The coding was performed by Mr. ALAN V. LEMMON with remarkable 
economy of length of program and running time. 

The deepest debt of gratitude is owed to the late DONALD A. (MOLL) FLANDERS 
whose contributions to the logical design of GEORGE had made the rapid execution 
of the program possible and whose personal interest made possible the availability 
of the computer for this work. 








134. Harvey Coun: Study of the representation of a totally positive integer 


References 


[1] Conn, H.: A computation of some biquadratic class numbers. Math. Tables and 
Aids to Computation 12, 213—217 (1958). 

[2] Harpy, G. H.: An introduction to the theory of numbers, pp. 300ff., 322. Oxford 
1938. 

[3] Hecke, E.: Vorlesungen iiber die Theorie der algebraischen Zahlen, pp. 173 —176. 
Leipzig 1923. 

[4] Maass, H.: Uber die Darstellung total positiver Zahlen des Kérpers R(5)4 als 
Summe von drei Quadraten. Abh. Math. Sem. der Hansischen Univ. 14, 
185—191 (1941). 

[5] StEGEL, C. L.: Additive Theorie der Zahlk6rper. Math. Ann. 87, 1—38 (1922); 
88, 184—210 (1922). 

[6] SommER, J.: Introduction a la théorie des nombres algébriques, pp. 370—373. 
Paris 1911. 


University of Arizona 
Tucson, Arizona 


(Received January 26, 1959) 











Numerische Mathematik 1, 135—141 (1959) 


Verscharfung einer Fehlerabschatzung 
zum Ritz-Galerkinschen Verfahren von Kryloff 
fiir Randwertaufgaben 


Von 
G. BERTRAM 


I. Einleitung 
Die Randwertaufgabe 


f(x) ¥" + h(x) y+ fo(*)¥=f(x); y@)=A4, yb) =B 
14Bt sich bekanntlich z. B. unter den in <a, b> geltenden Voraussetzungen: 


heshito tf stetig, 


/,>0 und stetig differenzierbar, /,<0, auf das einfache Problem (s. dazu [3] 
S. 230—246 oder ahnlich [2] S. 119ff.) 


(1) y"—q(x)y=r(x), (0) =y(1) =0 
q(x), r(x) in <0,1> stetig und etwa 0<g(x)SQ 


zuriickfiihren. Alle vorkommenden GréBen seien reell. 

Fiir Ritz-Galerkinsche Naherungslésungen dieses Problems sind in den ver- 
gangenen Jahrzehnten verschiedentlich Fehlerabschatzungen angegeben worden ; 
am brauchbarsten sind vielleicht die von KryLorr [4] — vgl. dazu auch [3] 
S. 303 ff. 


1 


Er greift das Variationsproblem (wir schreiben kurz f fiir f } 
0 


mit dem n-gliedrigen Ansatz der Form 
Yn(*) = 24 Py (X) 


mit den speziellen trigonometrischen, in <0,1> orthonormalen Koordinaten- 
funktionen 
Py 


y? 7? 





(2) y, (x) = /2-sinvax = — 


an, d.h. er bestimmt die },=a, - \2 der Ritzschen Naherung (wir schreiben kurz 


S tar 5) 


vy=1 


(3) y, = Db,sinv ax 











130 G. BERTRAM: 


aus den Galerkinschen Gleichungen 


(4) So{yn —9¥,—r}dx=0 (vy=1,...,n) 


und schatzt den Fehler /,=y—y, unter Verwendung des Fehlers F, = y —Y, 
der n-ten Teilsumme 
Y, = De, sinvax 
der Fourier-Reihe von y ab. 
Auf etwas verschiedenen Wegen findet KRYLoFF so die Fehlerabschatzungen 


(|[7||P=J7? dx) 




















(5) |f.| S C(#, Q)|I71| 
mit 
( __ Q+7' ae ee, a 
at \/2(m + 1)?+ 24 Dit o(;) 
und 
(6) fn] S D(n, Q) |} 
mit 








—— 
Din, 0) = 44 +2 +.) [Vn + 32] \1/ 20 =0(—). 

in, Q) 9623 (n + 1) [m2 (m + 1)?— Q] (n + 1)° x8 n\n 
Wahrend sich C(m, Q) mit wachsendem » asymptotisch wie 1/n verhalt, ist das 


asymptotische Verhalten von D(n, Q) wie ey also giinstiger. Andererseits 





versagt die zweite Abschatzung, wenn g zu stark gegen Null geht; genauer, wenn 
f a dx nicht existiert. So laBt sich eine Ritzsche Naherung (3) fiir das Beispiel 


(7) sya Hs, Pe 7e) 0 


S.... 2 
x 2) de 
x 





1 

(Die strenge Lésung ist y = x (1— x)) nicht mit (6) abschatzen, da f == 
nicht konvergiert. 0 

Ziel der vorliegenden Arbeit ist es, durch Modifikation und Verscharfung der 
Kryloffschen Abschatzung bei Verwendung der gleichen g,(x) eine Fehlerformel 
aufzustellen, die 

1. das giinstige asymptotische Verhalten der Formel (6) hat, 

2. mit ||7|| abschatzt wie Formel (5), damit Beispiele wie das angegebene 
erfaBbar sind und die Rechnung im allgemeinen vereinfacht wird, 

3. den Fehler |/,,| nicht durch eine Konstante, sondern durch eine Funktion 
von x abschatzt. 


Die Fehlerabschatzung erhalt dann die Gestalt (s. (15)) 





(8) \fn| = E(m, Q;x)||7|| mit E(n, Q; x) =0(—~). 


n \n 


Vor der Herleitung dieser Abschatzung noch eine Bemerkung: 

















Verscharfung einer Fehlerabschatzung von KryLorr zum Ritzschen Verfahren 137 


Welche ,,FuBangeln‘‘ das Ritzsche Verfahren bei kritikloser formaler Anwen- 
dung schon bei einfachsten Problemen besitzt, zeigt das folgende Beispiel, in 
dem nur die Voraussetzung g=0 verletzt ist: 


y'+ey=c; y(0)=y(1) =0 (c reell) 


ist die Eulersche Randwertaufgabe zu 


1 
Fly] = f [y’*?— cy? + 2c?y]dx =Stat!, y(0)=y(1) =0. 
0 


Der eingliedrige Ritzsche Naherungsansatz y,=ax(1— x) liefert iiber 


+ F[y] =0 
als Ergebnis 
5c? 
V1 wi ms x (4 — x) ; 


Bezeichnen wir die strenge Lésung mit y, so finden wir fiir verschiedene c die 
folgenden Falle: 




















3 Pf aad 
O eindeutig 0 eindeutig 0 
eindeutig eindeutig 
sf 
s BP nm 52? 
— sin — #% — COS x 1 — ———~ *(1-—% 
. 2 2 ‘3 40 — x? ( 
eindeutig 
or , ; 
a existiert nicht 5 Ee x (1 — x) 
10 — 2? 
unendlich vieldeutig eindeutig 
2n k-sin2ax*—cos2a* +1 102? x(1— 2) 
(k = Parameter) 22*— 5 
eindeutig 
|/10 V10 existiert nicht 
mie be sin 10% -- cos /10% +1 








II. Abschatzung 
Die Herleitung der Formel (8) bzw. (15) geschieht in mehreren Schritten 


unter Verwendung der negativ definiten Greenschen Funktion (mit ihrer Bilinear- 
entwicklung) 


Gix,ey = [%E—1) fir ese] _ SF _ ol) (8) 
€(x—1) fir Fax ST #2 
Numer. Math., Bd. 1 10 








138 G. BERTRAM: 

zu y"’=h(x), y(0) =y(1) =0 (A(x) in <0, 1> etwa stetig) 
y = JfG(x,é)y"(&) dé 

sowie ihrer Iterierten fiir x =&: 


(9) f[G(xaPae =|/Gye— U2" _ Sl) 


3 i yp*+ x4 
Ist ferner g(x) eine integrierbare Funktion, dann sei 
(10) [g], = -te Fourier-Teilsumme von g; <g>,, = g — [g],,- 


Offenbar ist [y;’],=Vp - 


1. Schritt. Multiplikation von (4) mit g,(€) und Summierung der Gleichungen 
iiber vy von 1 bis » fiihrt auf 


DLS yn’ 4x} gy (E) — XLS (Gyn) 4x} 9, (6) = DLS ry, 4x} 9g, (€) 


oder nach (10) auf 
— [9 Yalu = ["]n- 


Ersetzung der Argumente & durch x und Subtraktion von (1) ergibt mit (10) 
und (2) 
tn — Tin = <n + Ian = T+ IM n— I hadn 


= F’’ — 2 {Saheods}(— 54). 


Multiplikation der Gleichung mit G(x, &) und Integration iiber § von 0 bis 1 
liefert die Ausgangsgleichung 


— f G(x, 8) 9(f) fy(€) dé = +2 PE) fg teed x. 





(14) 





2. Schritt. Wir schatzen den Betrag von J mit der Schwarzschen Ungleichung 
ab und benutzen (9): 


[21 SIG Ila fall $5 =) VO Va al 


3. Schritt. Der Betrag von S wird mit der Schwarzschen Ungleichung und 
weiter unter Verwendung der Vollstandigkeitsrelation abgeschatzt : 





isis (3 an {Ia tn Grd x}" 





lA 


ja ~ 25 Sintens sin? y 2 x ‘llq- tn|| 
1 


” a 
4 
y —— 


<O|V9- tal: 





























Verscharfung einer Fehlerabschatzung von KryLorF zum Ritzschen Verfahren 139 


4. Schritt. Multiplikation von (11) mit g(x) /,,(x) und Integration iiber x von 
0 bis 1 ergibt mit der Vollstandigkeitsrelation und der Schwarzschen Ungleichung 


Wa-tal? satel? — SS G9) fa) 912) fale) db ax 

O 

= f F, ‘| fndx + Dohe lS It dx)? 

na [Sat pdx]? 
1 


=||¢-full?S Q Vata! 


liefert bei hinreichend groBem m mit (m +1)? - 22>@Q 


c~ 











IA 3 











Die Auflésung nach || 
sofort 


(12) 





IVa: fall s- CEO LS | FI. 


)- 2 
Nun ergibt die iiiclamicaiiag 


ba ow) 
|| Fall? = ; ao = ||Fe|/?= ; Dd (vy xe,)?= (m +1)? 13 
ary sa 2 ntl 


durch Vergleich und Ubertragung auf die zweite Ableitung (s. dazu [3], S. 306) 


1 ’ 1 
(13) All Saye ll ll 8 Gaara 











7 1 ” 
Fn || = (nm + 1)?+ 22 sly ll 
n+1 
Insbesondere fiir 7 =0 finden wir die Ungleichung von W. A. STEKLOw (s. [J], 
Bd. III, S. 716) 
1 4,7 
(14) IIS = Ily'll- 


48 


— 


Einsetzung von (13) in (12) ergibt 
tS 








—lly"Il 
3d. Schritt. Aus 


eMac (F,(0) = 0) 
0 


folgt mit (13) 








fRBldx 








+ 1)* 2° 


SPIRIT TEs 45 





- 
=|/2|, ily’ II- 


6. Schritt. Multiplizieren wir (1) mit y, um dann iiber x von 0 bis 1 zu inte- 
grieren, so finden wir mit (14): 
Sy": ydx=Jq-ydx+frydx 
ee” —-+ ———— — — 


= —||y’|?S — 2? |ly|/?_ 20 Betrag S ||r|| - || y|| 





oder 


1 
yl Se Ill. 








140 G. BERTRAM: 


Abschatzung der Differentialgleichung ergibt damit 
lly" S @llyl + Url s(-S+ 4) 


m2 


Setzen wir alles ein, dann finden wir die angekiindigte Abschatzung (8): 











(15) I/nl S E(, Q; 2) [Ir 
mit 
eo x(1 — x) s(i—s)* “ sintyax Q 
E(n, Q; x) ( 13 + 3 22 y* m4 (n + 1)?- x? — Q + 





x(n, x) 


4 Vers} (S+)) ((m + 1)? a®>Q). 






























































Die Auswertung von y(n, x) fiir »=1,2,...,6 und x=0,1; 0,2; ...; 0,5 
(z(, 0) =0; x(n, 1— x) =x(n, x)) ergibt: 
x(1—x) 
x x(1, x) x (2, *) x (3, *) x (4, x) x(5, *) x(6, x) +++ | x (00, x) —" 
0,14 | 0,079153 | 0,069167 | 0,063368 | 0,059549 | 0,056933 | 0,055185 0,051 962 
0,2 | 0,130320 | 0,109079 | 0,099428 | 0,097068 | 0,097068 | 0,006444 | 0,092 376 
0,3 0,156 763 0,131 291 0,130004 0,128 246 0,125 266 0,124 515 ‘ 0,121 244 
0,4 0,163 637 0,152177 0,148450 0,143 583 0,143 583 0,141 860 0,138 564 
0,5 0,161 698 0,161 698 0,151 258 0,151 258 0,148 215 0,148 215 0,144 338 
x(x) - n=/ 
aIs n=6 
L 
g/ i 4¢ — 
005 
hiv n —~ ce geht 
x (1-x) 
X(1,x) — = 
Wy) a a a a a a a 
0 O5 10x 
Fig. 1 


III. Beispiel 
Fir das Beispiel (7) (Strenge Lésung y = x(1 — x)) 
y=-seyeP—e—3, 9Mo-r)=-0 ~=4) 
liefert ein 4-gliedriger Ansatz: 
a= 0,25801225 
a, = — 0,000001 09 


1 
Va=>4,-:sinvax mit 


yal a3=  0,00955601 
a, = — 0,00000273. 





Verscharfung einer Fehlerabschatzung von KryLorr zum Ritzschen Verfahren 141 


Die erste Abschatzung von KRYLOorFrF (5) ergibt 
ly — ¥4| S$ 0,1464, 
die zweite Abschatzung von KRYLOFF (() versagt, wie schon oben festgestellt 


wurde. 


Nach (15) finden wir: 
0,02502 fir x=0 und x=1 


0,02528 fiir x=0,1 und x=0,9 
0,02545 fiir x=0,2 und «=08 
0,02559 fiir x=0,3 und x=0,7 
0,02566 fiir x=0,44 und x=06 
0,02570 fiir x=0,5. 


ly—m |S 





Diese Abschatzung ist also etwa um den Faktor 6 besser. Der strenge Fehler 
ist bei x =0,5 
|y — ¥4| =0,01757. 


Literatur 


[1] FIcHTENHOLZ, G. M.: Lehrbuch der Differential- und Integralrechnung, Goste- 
chisdat 1949. 

[2] KamKeE, E.: Differentialgleichungen, Lésungsmethoden und Lésungen, Bad. I. 
Leipzig 1944. (666 S.) 

[3] KAnTorowitscu, I. W., u. W. 1. Krytow: Naherungsmethoden der Héheren 
Analysis. Berlin 1956. (611 S.) 

[4] Kry.orr, M. N.: Les méthodes de solution approchée des problémes de la Physi- 
que mathématique. Mémorial des sciences mathématique, Fascicule XLIX, 
Paris 1931. 

Institut fiir Angewandte Mathematik 
der Universitat Hamburg 


(Eingegangen am 22. Januar 1959) 








Numerische Mathematik 1, 142—149 (1959) 


On the Propagation of Error in Certain Non-linear 
Algorithms* 
By 
P. WYNN 


Introduction 


The following note concerns itself with the propagation of error in certain 
non-linear algorithms which have recently been announced; formulae are given 
which describe the propagation of error, and methods are described which enable 
the numerical stability of the algorithms to be assessed. 

The algorithms relate members of an array of functions or numbers, the 
general member of which may be denoted for the purpose of a general exposition 
as gy”). The array may be displayed as follows: 


p 
gy 
~ gt 
gh 
g gt) 
gh” ; gy 
A. FF gs 
qs" 
ar 
vs” 


so that the superscript m denotes a diagonal and the suffix s a column. 


All the algorithms considered in this note are lozenge diagram algorithms, 
that is, each quantity pg) is derived from a relationship of the form 


Bm fl), lm), tT, pitt} =0, (1) 


which affects quantities lying at the corners of a lozenge in the described array. 
In certain of the algorithms (for example the e-algorithm later to be described, 
as are also the other algorithms mentioned), the functional relationship is in- 
dependent of both m and s; in the g—d, the y- and vhe second g-algorithm 
o\™ {...} depends only upon whether s is an even or an odd number; in the first 
g-algorithm 9 {...} depends upon m and upon whether s is even or odd, and 
in the g-algorithm #” {.--} depends only upon s. 





* This work was carried out while the author was at the Rechenzentrum of the 
Technische Hochschule, Miinchen. 








Propagation of Error in Certain Non-linear Algorithms 143 


The manner in which equation (1) is used to construct the array of quantities 
g{”, depends upon the initial conditions which are provided. If the quantities 
gp”) m=1, 2,...,h; gp” m=0,1,...,4—14 are given, equation (1) may be used 
to construct a triangular array, column by column, until the vertex gy, is 
reached. This will be referred to as the forward use of the algorithm. If the 
quantities pg! s=0, 1,...,h—1, yp) m=1, 2, ..., hare given, the same triangular 
array may be constructed, diagonal by diagonal, until finally the quantity g!"~— is 
determined. If the quantities gy’, s= —1, 0, ..., —1 are given and the theory of 
the algorithm suggests that the two whole columns g™), gy!” m=O, 1,... are 
known, then an infinite strip of the array may theoretically be constructed, 
diagonal by diagonal, by the so called progressive use of equation (1). 


Independent of the manner in which equation (1) is used, suppose that the 
initial conditions are given as functions of a sequence of quantities p, n=O, 1, .... 

















Fig. 1—3 


For information as to the significance of the quantities #, in the theory of the 
algorithm considered, and of the meaning of the derived quantities pg”), the 
references which will be given as each algorithm is described, should be consulted. 
It will just be said at this point that in the present state of the theory the quan- 
tities p, have either been the coefficients c, in a power series, or the partial 
sums S, of a series, or numerical quantities S, produced by recursive application 
of an iterative procedure. 


It is clear that if a small error 6p, is made in p,, corresponding errors, of 

‘ : ag™ , : ind 
approximate magnitude as —6,, will be produced in the quantities gy”. A 
law governing the propagation of small errors 6 {g”; p,} in gp”) due to an error 


dp, in p, maybe deduced by differentiating equation (1) totally with respect 
to #, and multiplying throughout by 6/,,, to obtain an equation such as 


a™ {5 {o™; pr}, S(O; Pat, S{G" i"; Pa}, O{G"3"; P,}} = 0. (2) 


If all the initial conditions depend upon the quantity #,, then the error propa- 
gates throughout the whole part of the array which may be derived from the 
initial conditions. If, however, the quantity #, affects only the initial quantities 
gp, oft”, ..., p+, among the quantities gf”), m=0,1,...,4—1, then the 
error propagates through such a region as is shaded in Fig. 1. 








144 P. Wynn: 


If the quantity #, affects only the initial quantities gi, g!),,..., p{° 


9 Pitre 
among the quantities  s=0,1,...,4—1, the error propagates through such 
a region as is shaded in Fig. 2, and if the column 9g”), m=O, 1, ... is also known 


the error propagates through such a region as is shaded in Fig. 3. The boundary 
conditions, which together with equation (2), completely determine the propa- 
gation of error due to the error 6, in p,,, may be obtained by partial differentiation 
of the functional relationship defining the initial conditions in terms of #,,, and 
by bordering the remaining edges of the appropriate shaded areas in Fig. 1, 2 or 3 
by zero. In particular the boundary conditions relating to the functions 9), 
Gy. PET, GLY, plt®,..., pt*-), will be referred to as the trailing 
boundary conditions. 

It transpires that in all cases to be considered the functional relationship 
iH”) {...4 is independent of #,, that is to say that equation (2) is linear and 
homogeneous in the errors 6 {gy ; p,}, 6 {p",; Pr}, O{G"T); Pr}, 6 {p"s”; P,}- 
The inferences of this are that the errors 6 {y”; fo, p,, -.., P,} propagate ac- 
cording to the same law (2) and, perhaps more importantly, that an upper bound 
for the modulus of the error 6 {py ; po, p,, ..., p,} may be given, for certainly 


|S {og Do, Pr, ++ EAL ar p,}|- (3) 


In all the feasible applications of the algorithms, upper bounds for 6%, 1=0, 1, ... 
may be given. Independent error analyses using equation (2), for ~=0,1,...,/ 
may then be conducted, and upper bounds for the errors in the various members 
may be derived from the inequality (3). 


An equation governing the propagation of the relative error 6 {p”); p,}/g” 
may be derived by trivial substitution in equation (2), perhaps with subsequent 
simplification resulting from the use of equation (1). An indication of the numer- 
ical stability of the algorithm is provided by the condition numbers c {g”); ,}, 
where c {gp ; p,} is the ratio of the relative error in gy” to that in ,, or 


5{98" 5 Pn} Pn 
S Pn” 
If #”) {.--} does not involve #,, then the condition numbers propagate according 


to the same law as that which governs the propagation of the relative errors, 
and may be written 


v™ fc fol; pt, c{pl™) ; dal, CLT); Pa}, ¢ {Pd Pat} = 0. 


Qualitatively it may be said that if the modulus of any of the condition numbers 
c{y"); p,} exceeds unity, the algorithm is unstable; quantitatively it may be 
stated that if the numerical results relating to the algorithm are produced by 
the use of fixed length floating point modulus # arithmetic and for any 9” 


lo {o™; b,}| = 2" 


then at least the last & figures of the numerical value derived for gy”) are purely 
ornamental. 


c{g”; Pr} = (4) 


Details relating to various algorithms will now be given. 








Propagation of Error in Certain Non-linear Algorithms 145 


The q —d algorithm [1]. Here a distinction is preserved between odd and 
even numbered columns. The columns numbered s=0, 2, 4, ... in the gi” array 
contain quantities denoted by g'”) r=1, 2, 3,..., whilst the columns numbered 
s=—1, 1, 3,... contain quantities denoted by e”) r=0, 1, 2,.... The relation- 
ships connecting these quanties are 


gi + elm) = gimt) 4 elm+t) gi) elon) — gim+3) elm +1), (5) 
The equations governing the propagation of absolute error are 
8 {9s Pat + Of"; Put = 9 {91s Pu} + OLIN; Pu} (6) 
elm) fal Ba} +a O{eL"; pu} = emt B(Ql™™D; py} +g OLED; B,}. (7) 
The equations relating the condition numbers are 
Gp” 697"); Pu} +e {ep 5 Pu} =I" cfg; Da} temic femir; Pu}, (8) 
CLI 1s Pnd + {Gs Pn} = CLG: Ys Du +0 fer"*; Py}. (9) 


In the forward use of the g—d algorithm, the initial conditions are given in 
terms of quantities c, m=0,1,... by 


en”) a 0 q” ‘ani Cm : 1!Cm- (10) 


The trailing boundary conditions for the sets of equations (6), (7) and (8), (9) 
are then 


{E05 Cu} =O, O{Q"— "5 Cn} = (Cm 1) 2 Om, = J = — MH" (Cy)? OC, (11) 


cfc, }=0, cig?—"; c,.} =1, c{q™); Ca} = — 1. (12) 
When : 
¢F,.=n! #=0,1,... 


it is easy to verify that 
™orim em=or, 


Table 1 shows part of the g—d array resulting from the initial conditions 
C,=n! n=0,1,3,4,...  C_y= 2000006 


that is, consequent upon the introduction of an error of 10-6 in the coefficient c,. 


Table 1 
elm) qm) elm) qy”) elm) qy") elm) 

1-0 

O 1-000 006 
2-000 006 1-999 964 

oO 0-999 985 2:000 084 
2°999991 3000 063 2:999 802 

0 1-000009 1°999910 3°000 324 
4:0 3-999 964 4-000 216 

0 1-0 2-000 036 
5-0 5-0 

O 1:0 


6:0 


#~% 








146 P. Wynn: 


Table 2 indicates the propagation of the errors 6 {e”); cg} and 6 {q™); c.}, whilst 
Table 3 illustrates the variation of the condition numbers c {e™ ; c.} and c {q™ ; cg}. 


Table 2 
10° 5 {el ; cg} - 10° S {gk ; cg} - 10° S{el™); cy} - 10° 5{q\™ ; cg} - 108 d{el™ ; ca} - 108 5{g\™) ; cg} - 10° 5{e4™) ; cy} 


0 
9) +6 
+6 — 36 
0 — 45 + 84 
~@ + 63 — 198 
0 +9 — 90 + 324 
(a) — 36 + 216 
(8) + 36 
(e) 
Table 3 


c {e"); co} c{qy); Co} c {elm); Co} c{qy"); Co} c {el™); ca} c {q¥"); co} c{eym); Ce} 


0 
O +2 
+1 —6 
8) =—5 + 14 
—f +7 — 22 
0 +3 = 9§ + 36 
8) <3 + 18 
0 +6 
0 


Table 3 indicates that in this case the g—d algorithm is unstable, though not 


explosive. 
There is no reason to suppose that the g—d algorithm is any more or less 


stable than the other algorithms discussed in this paper. 


The first g-algorithm [2]. This is essentially an extension of the g—d al- 
gorithm, a displacement factor S™) is introduced into the formulae which run: 


(Ss — gin) ») i = om (Sith) — gmt) get), (13) 
(1 — gf) est. = (1 — est”) esti. (14) 


The quantities g) are related to the quantities e™”, g) of the preceding algo- 
rithm by the equations [3] 


— gi), gi) =i, = — (St) — gl) .) (1 — gh’) = el. (15) 


2r—1 


Formulae describing the propagation of the absolute error are 


(S™ — ghm) ,) d{eh); Pa} — obs) b {elt 1; Pa} (16) 
= (Sim+) _ git) ) d {git ; Pn} _ giath 6 {ele th); b,}, 
(1 — gy”) ) 6 fey; ’ Pn} <— ey). 6 {ef”; Pi} (4 7) 


= (1— gt") 6 ferstys Pat — esti’ 6 {erst Ys Pad 





Propagation of Error in Certain Non-linear Algorithms 147 


and formulae relating the condition numbers are 


By) [(S™ — gy?) 1) ¢ {ees Pu} — Bas1¢ {ees 15 Pad] 


ax giets) ((S +? — gist) c {elstd); 2} — ofett c{elet; d,}] ai 
2} 
ey). ((1 — eff) ¢ {09.15 Pa} — a3) ¢ {eft 2,3] (19) 


= eysty [(4 — eget") ¢ ehStTs ba} — est? c {elst: bn} - 
In the forward application of this algorithm the initial conditions are given by 
gy =1 gf = S™ — Cy salem (20) 
in which case the trailing boundary conditions are given by 
6 {gim); Cm} — 0, ty) {gim—); Cu} _ (— Cm a Cm> 6 {gim) ; Cy} = — Cm 1(C a} la OC , (21) 


£{ EO” 5 Cm} =O, Cf EI"; Cy} = —Cyu(Cy— 1 BY"), (22) 
c {eh 5 Cn} = Cia (Cm BY”) 
-_ second g-algorithm [4]. This is a variant of the g—d algorithm. Quan- 


tities 4 related to the quantities e™, g’™ by [5] 


(m) (m) m (m) (m) ™ 
for-2(S — Bar j= =i", far—a\t see 82,) = elm) (23) 
satisfy the relationships 
(m) (m) (m+1) (m+1) (m) (m) (m+1) , (m+-1) 
825-182; 82s-2 82s-1> a 2.) (s poi Bicas) = (1 sane Zo.) (s ita fe.-1)- (24) 
Formulae describing the propagation of the absolute error are 
j(m) (m) (m) 
Bos-19 | Bos: Pu} +8059 { Bas 13 Pa} (25) 
25 
__(mt+1) (m+1) (m +1) (m+1) 
= fe- 20{ §2s— 13 Pa} + 82s— 16f §2s— 2} Pn}: 
(m) (m) Ss (m) (m) 
(1 — 895) 9 { Bes415 Px} +(S — Bas41) 9 | Gass Pn} (26) 
(m+1) (m+1) Ss (m+1) jim 1) i 
=(1 —s 82s) 6 | 82s— 13 Pa} + (S - 1) | 825) p,,| 
and formulae relating the condition numbers are 
(m) (m) (m+1) (m+1) m 
C} bas; Pr} +61 gos-25 Pal =e{ 82s— Pat tel g 825-2: : Pal, (27) 
(m) \ (m) (m) (m) (m) (m) 
(4 — 82) Bossi 6 | Sas41 bx} + (S— 8o541) 825 © { 82s: pr}, (28) 
(m+1), (m+1) (m+1) (m+1) a - (m+1) i 
=(1— 82s) §2s— of 8es—1) Pat + (S— 82 5—1) 5c} Bess Pu} 


In the forward application of this algorithm the initial conditions are given by 


(m) (m) 
&o = _ 1, 81 = S raw Cm + 1!Cm (29) 








148 . P. WYNN: 
in which case the trailing boundary conditions are given by 


5 {E95 Cm} = 0, ae ; Cou} = (—Cx 1)? 6c,,, 


5 jim), 28, (30) 
1 813 Co} — Cm 4 1(¢ a Cm 

jm) = gim—2) | | os (m—1) -1 

l'g5;c a] = 0, Cy) Bi +m = — Cm (Cn—1 81 ) , 


(m) 


(mm 
© (Bt ca = een (Cu) 


The ¢-algorithm [6]. Here the functional relationship 9” {.--} is independent 
of both m and s; quantities e”) are related by 


(oF), — eng”) (rt? — of) = 1. (32) 
The propagation of the absolute error is described by the equation 


(a, i‘. emt 1)) (6 { e(m n 1). Prt — fem); Prt) + 


(33) 
+ (e™ hy) — ” (6 {¢ a3: Pn} pa 6 fel") a ; Pu}) = =? 
and the condition numbers are related by the equation 
(esta — LEE) (eft Pc Lem *; Da} — eye Le”; Bua}) + (34) 


of (fet) a e(™)) (el m) cfelm) ; Pn} = et cle e 1) ;P.}) = = (), 


In the forward application of this algorithm, the initial conditions are given by 


mt (35) 


in which case the trailing boundary conditions are given by 


d{2"};S,}=0, d{el";S,}=4S,, cfe";S,}=0, cfel";S,}=4. (36) 


(m) __ in). © 
™ —9 eS 


The y-algorithm [7]. Quantities 7!” related to the quantities ¢”) by i$} 





(m+1 . ) (+1) _ »f 7\. 
egy) — ef) = nf Eyes — egst = ngs (37) 
satisfy the relations 
(m) (m) __ ,,(m+1) (m+1) 1 1 Ds 1 1 
"2 5— 1 > "2s = 25-2 2 a N2s—1 m si m rei m+1 +> m+-1 - (38) 
(m) (m) yimtiy) | mtd 
"2s 19s+1 12s—1 I2 5 


Formulae describing the propagation of the absolute error are 
O {yea Pu + OME? s Punk = O {meds Pub + O (M27 Pn} (39) 
(ny)? 6 (ny? Pu} + (neea)? 4 (my? 5 Pa} 
= (neste)? 6 {nest ys Pa} + (mgs PF 2 4 (ngs; Pa} 
whilst the condition numbers are related by 
Me's-1¢ as —13 Pn} + es cles s Pn} = Mesa C{Mes tes Pa} + myeii' ckmge sD; Pa}, (41) 
(ny?) Ve {ny? 5 Pa} + (ny.4) 2¢ {ng", 1) Pr 


: (42) 
= (mys21)) 2 © {mes21s Ba} + (nse?) —he {gts Ba}. 





Propagation of Error in Certain Non-linear Algorithms 149 


In the forward application of this algorithm, the initial conditions are given by 
m=O 10” = Cy (43) 
so that the trailing boundary conditions are given by 
bf"); c,3=0, O{yl”;cj=de,, c{y™;c,}=0, c{yl;c.}=1. (44) 
The g-algorithm [9]. Quantities 9!” are related by 
(oft, — oti”) (et? — of) = 2 + 1. (45) 


s 


It will be recognised that the equation describing the propagation of the absolute 
error, and that relating the condition numbers may formally be transliterated 
from equations (33) and (34), and since in the forward application of this algorithm 
the initial conditions are of the same form as (35), the trailing boundary conditions 
may be transliterated from (36). 

Acknowledgements. The author is grateful to the Deutsche Forschungs- 
gemeinschaft for providing him with a grant which has enabled this note to be 
written. 


References 


[1] RutisHAusER, H.: Der Quotienten-Differenzen-Algorithmus. Mitt. Inst. angew. 
Math. E. T. H., Nr. 7 (1956). Basel: Birkhauser. 

[2] Bauer, F. L.: The g-algorithm, to appear p. 8. 

[3] Bauer, F. L.: loc. cit., p. 12. 

[4] Bau™Er, F. L.: loc. cit., p. 15. 

[5] Bauer, F. L.: loc. cit., p. 15. 

[6] Wynn, P.: On a Device for Computing the e,,(5S,,) Transformation. M. T. A. C., 
vol. 10, p. 91 (1956). 

[7] Bauer, F. L.: loc. cit., p. 16. 

[8] Bauer, F. L.: loc. cit., p. 17. 

[9] Wynn, P.: On a Procrustean Technique for the Numerical Transformation of 
Slowly Convergent Sequences and Series. Proc. Camb. Phil. Soc. 52, part 4, 
663 (1956). 

Institut fiir Angewandte Mathematik 
der Universitat Mainz 


(Eingegangen am 26. Februar 1959) 








Numerische Mathematik 1, 150—166 (1959) 


The evaluation of the zeros 
of ill-conditioned polynomials. Part I 


By 
J. H. WILKINSON 


1. Introduction 


The design of a general purpose subroutine for the calculation of zeros of 
polynomials presents considerable difficulty. This is mainly because many poly- 
nomials which arise in practice are such that small changes in the coefficients 
produce much larger changes in some of the zeros. If the subroutine were intended 
merely for the calculation of the zeros of polynomials of which the coefficients 
were the primary data and were subject to end figure errors, then it would be 
reasonable to limit its scope to the accurate determination of those figures in 
the zeros which remained unaltered when the last figures of the data were changed. 
Since primary data is seldom accurate to more than ten figures, a subroutine 
based on the use of single precision floating arithmetic would normally be 
adequate and subroutines of this type have been written for a number of digital 
computers. 

However if a subroutine for finding zeros of polynomials is to be used as a 
step in the solution of some larger problem it must meet much more exacting 
requirements. It may well happen that although the numbers which we seek 
to determine by calculating the zeros of a polynomial are well determined in 
the original problem in the sense that they undergo small changes when small 
changes are made in the data, the same is not true of their dependence on the 
coefficients of the polynomial. As is shown below this will often be the case 
when we attempt to determine the eigenvalues of a matrix by calculating its 
characteristic polynomial and finding its zeros. Because of the importance of 
the algebraic eigenvalue problem, the design of a general purpose routine for 
finding zeros of polynomials is discussed with special reference to its use for this 
purpose. 

In this paper we are mainly concerned with an analysis of the problem of 
ill-conditioning in polynomials and we show that it cannot be overcome without, 
at some stage of the computation, resorting to high precision arithmetic. It is 
claimed that the iterative programmes which are described here reduce the 
volume of high precision computation to a minimum. The reader may well feel 
that since well conditioned problems frequently lead to ill-conditioned poly- 
nomials, transformation to explicit polynomial form should be avoided and this 
view was at one time shared by the author. However, experience with the routines 
described here for finding the zeros of polynomials has shown that the formal 
simplicity of the explicit representation is such an advantage, that it frequently 








Evaluation of zeros of polynomials. I 151 


happens that high precision computation performed on the explicit form is faster 
than single precision computation performed on alternative forms*. 


2. The Eigenvalues of a matrix as functions of its elements 


Since a subroutine for finding zeros of polynomials is likely to be used to 
find the eigenvalues of a matrix, we consider first how the eigenvalues of a 
matrix are affected by small changes in its elements. A very simple analysis 
will suffice for our purposes. Let A be a square matrix with distinct eigenvalues 
Ay, Az,-.. 4, and eigenvectors ™,, %,,...%, and let v,,v,,...v, be the eigen- 
vectors of A’. If 6A is a small perturbation of A then we assume that a typical 
eigenvector of A +6A is u;+ }) €;;u;, where the €;; are small, and that it cor- 


j+t 
responds to an eigenvalue, A4;+6A;. Then 
(A + 6A) (u; +  ejuj) = (Av + 44) (m5 + D 615%) (1) 
i+% it 
6A u;+ >) &;A u; = > A, 8); uj + 6A, u; (2) 
i+% j+4 
Multiplying this equation by v/ we have 
vf 6A u; 
64; = — (3) 


since vj u;=0, 7 +1. 
If the elements of 6A are all bounded by «, then for normalised v; and 4; 


we have 
|\vf 6A u;| ne. (4) 


If A is symmetric then the v; and the u, are identical and v/ u;=1 for normalised 
vectors, so that 


|6A;| Sue. (5) 


We can construct unsymmetric matrices for which (vj u;) is arbitrarily small 
but it has been the author’s experience in practice that values of (vj u,) have 
not been unduly small and the eigenvalues have usually been well determined 
by the data. This is important because we are more likely to resort to the use 
of the characteristic equation for unsymmetric than for symmetric matrices. If 
we are to find eigenvalues via the characteristic equation we must know how 
the zeros of a polynomial depend on its coefficients. 


3. Condition of a polynomial 


The considerations of the previous section lead us to the problem of deter- 
mining the perturbations in the zeros of a polynomial due to perturbations of 
its coefficients. Thus if the general polynomial of order ” is denoted by 


f(z) =2%* + ay_y 2-1 + a, 92" 7 +--+ a (6) 





* The paper is presented in two separate parts. In this part we develope the 
considerations which have led to the design of the subroutines on the computer 
DEUCE. In a second part we shall give a practical assessment of their performance 
on polynomials arising from a number of different sources. 








452 J. H. WiILkINson: 
we wish to determine the zeros of 
f(z) + 6f(z) = f(z) + 6a,2 


for each value of 7. 
If A; is an isolated root of f(z), then A;+ 6A; is a root of f(z) + df(z) if 


f(A; + 64,) + 6a,(A; + 64,)’ = 0 (7) 
or, since /(A;) =O 


6A; = — 6a, 2;/f'(A;) to the first order of small quantities. (8) 
For a double root /’(A;) =0, and equation (7) gives 
2 (6A;)?f’"(A,) — da, Ki; 


(5A;)? = — 26a, A/f'"(A,). (9) 


There are similar results for roots of higher multiplicity. For a double root 
the perturbations involve the factor (6a,)!, so that we expect changes of order 
101° in a coefficient to make changes of order 1075 in a root. The sensitivity 
of multiple roots and of very close roots has been widely discussed in the literature. 
The fact that a succession of ‘moderately close”’ roots also results in a very poor 
determination has received much less attention though OLVER [3] mentions this 
in passing in connexion with one of his examples. The author’s experience 
suggests that it is the overriding practical problem. 


By way of illustration, we consider a polynomial of moderate degree with 
roots which can certainly not be regarded as pathologically close. The polynomial 
is of degree 20 and is defined by 


f(x) =(x +4) (x +2)...( +20), (10) 
Since for any polynomial with roots A,, Ag, ..., Axg we have 


f(a) = IT (Ai— 4) (14) 
jt 
equation (8) gives for the 20th root 


__ 20’ da, 
OAgg = a (12) 





This takes its greatest value for y =19, namely 





2019 
bAsy = 91 6 ayy 0.43 X 108 dayg. (13) 


The 20th root is not the most sensitive to variations in a,, however. We have in 
fact 


19 
OA; — <a 6 ay9== 0.21 x 101° bay (14) 
and 
16)9 
5 Aig = 10 5 ayy == 0.24 X10" Sayy. (15) 


4!15! 








Evaluation of zeros of polynomials. [ 153 


The multiplying factors are so large that for a change of order 107 in day, the 
linear approximation given by (8) is completely invalid. The roots of the poly- 
nomial 

(x +1) (x + 2)...(% + 20) + 2° x9 (16) 


for instance, are given below in Example 1. It will be seen that the small roots 
are little affected by the variation but that the larger ones are completely changed, 
10 of them becoming non-trivially complex. Example 2 on the other hand shows 
a perturbation of a, for which the linear theory is sufficiently accurate. 


Example 1. Accurate roots of polynomial (x +1) (~ + 2)... (#7 +19) (¥ + 20) + 2-23 x19 


— 1.00000 0000 — 10.095266145 + 0.643500904 2 

— 2.000000000 — 11.79363 3881 + 1.652329728 7 

— 3.000000000 — 13.99235 8137 + 2.51883 00702 

— 4.000000000 — 16.73073 7466 + 2.812624894 7 

— 4.999999928 — 19.50243 9400 + 1.94033 0347 2 

— 6.00000 6944 

— 6.99969 7234 Note that 5 pairs of roots have become com- 
— 8.00726 7603 plex. Changes are so great that the linearised 
— 8.917250249 perturbation theory is inapplicable. 


— 20.846908101 


Example 2. Accurate roots of polynomial (x +1) (¥ +2)... (+19) (w + 20) + 2755419 


— 1.00000 0000 — 6.00000 0000 — 10.99999 9999 — 16.00000 0067 
— 2.00000 0000 — 7.000000000 — 12.00000 0006 — 16.99999 9947 
— 3.00000 0000 — §8.000000000 — 12.99999 9983 — 18.000000028 
— 4.00000 0000 — 9.000000000 — 14.00000 0037 — 18.999999991 
— 5.00000 0000 — 10.00000 0000 — 14.999999941 — 20.000000001 


Changes are now all small enough for linear perturbation to be applied. 


We call those roots of a polynomial which are sensitive to small changes in the 
coefficients, “‘ill-conditioned”’ roots. The above example makes it clear that a 
polynomial may have some ill-conditioned and some well-conditioned roots. The 
condition of a polynomial is not changed by multiplying all its roots by a constant 
scale factor. It will readily be verified that the polynomial with roots 1.00, 0.95, 
0.90, ..., 0.05 is as ill-conditioned as the one we have just considered. 


4. The use of the characteristic equation 


We now analyse the significance of the above results when the eigenvalues 
oi a matrix are determined by finding the roots of its characteristic equation. 
We consider a matrix of order 20 with well determined eigenvalues which have 
approximately the values —1 to — 20. (We prefer not to have roots exactly 
equal to these values because comments about rounding errors are inapplicable 
for examples in which small integers occur.) Suppose we have a method of cal- 
culating the characteristic equation which determines the coefficients correctly 
as ten-digit floating decimal numbers, so that the only errors are those that are 
inherent in the representation of the coefficients by numbers of a finite length. 
The coefficient of x!® is approximately 210 so that the rounding error in this 

Numer. Math., Bd. 1 11 








154 J. H. Wirkinson: 


coefficient has the maximum value } 10~’. The results quoted above show that 
such an error will be fatal to the accuracy of the larger eigenvalues. It is worth- 
while considering the effect of errors in the other coefficients since further aspects 
of the difficulty are thereby illustrated. The coefficients of the polynomial are 
of the order of magnitude shown below. 


x20 4 403 419 4 405 718 4 407 x17 + 108 x16 + 1019 x15 4 40M x14 4 1012 13 + 
+ 1039 x12 + 41014 a1t + 1016 10 + 1017 x9 + 1017 x8 + 1018 x7 + 1019 x8 + 
+ 1019 45 + 1019 a4 + 1029 x3 + 1020 x2 4 1019 x + 10)9. 


When considering the perturbations due to the error in the coefficient of x” we 
must take account not only of the factor 4{/f(A;) but also of the variation in size 
of 6a, itself. The maximum rounding error in a, for ten-digit representation 
is $ 10-5 and because this is larger than that in a,,, the rounding of this coefficient 
can have the more severe effect. The worst case is the perturbation in A,, due 
to the rounding error in a,, which can have a maximum value of 


1635 


Fast (0.18) 10°. 


1 410-10 
2 


This is well beyond the region where a linear approximation is valid. 


The inadequacy of single precision floating arithmetic for such polynomials is 
further illustrated by the following simple observation. If we take the equation 


a* + a,_,2°-'+--- +a =0 


and multiply it by a ten-figure constant k, rounding the new coefficients ka, 
to 10 significant decimals then any roots which are very sensitive to end-figure 
changes in the coefficients of the original polynomials, will be substantially 
modified by the transformation. Thus we cannot perform the simplest operation 
involving rounding errors on such a polynomial without modifying these roots. 
If the coefficients of the polynomial are primary data and are subject to indepen- 
dent errors of any kind, we can claim that only those figures are meaningful 
which remain unaltered when the last figures of the data are modified and no 
purpose is served in trying to calculate the roots to higher accuracy by regarding 
the coefficients as exact. 


If, on the other hand, we are using the characteristic equation to determine 
the eigenvalues of a matrix, then provided these eigenvalues are well determined 
by the data, we are justified in forming the characteristic equation to any ac- 
curacy which may be necessary to determine its roots correctly. It may be 
argued that if the elements of the original matrix have errors in their kth signi- 
ficant figure then this is true also of the coefficients of the characteristic equation 
and no purpose can be served by calculating them more accurately. The fallacy 
in this argument is that errors in the coefficients of the characteristic equation 
arising from those in the elements of the matrix are not independent and, since 
the exact characteristic equation of the given matrix has for its roots the exact 





Evaluation of zeros of polynomials. I 155 


eigenvalues of the matrix, we may calculate those eigenvalues to any accuracy 
by forming a sufficiently accurate characteristic equation. The above example 
shows that if a symmetric matrix of order 20 has eigenvalues approximately 
equal to 1, 2,...,20 we must determine the characteristic equation correct to 
18 or 19 decimal places to obtain all the eigenvalues correct to 5. 


It is tempting to conclude from this that, since matrices commonly arise 
which have unfavourable distributions of roots, the determination of the charac- 
teristic equation is always inadvisable. The author’s experience of the last few 
years has convinced him that this is not completely true and what follows may 
be regarded as a qualified attempt to reinstate the use of the characteristic equation. 


5. Analysis of some standard root distributions 


Before investigating methods of calculating zeros of polynomials we shall 
analyse the condition of a number of polynomials whose zeros have typical distri- 
butions. The above example has shown that a linear distribution of positive 
roots gives rise to ill-conditioned polynomials. It is interesting to note that the 
polynomial of order 20 given above is in some respects worse conditioned than 
may be a polynomial with a multiple root. For example, the polynomial f(z) 
defined by 


f(z) = (2 — 2)°(2" +1) (17) 


has a treble root at z=}. If the coefficient of 2’ is changed to (a,+6a,) the 
perturbed roots become (} +) where « satisfies 


a(2"41)=—da,2" or e&=—da,(—2). (18) 
The expression on the right is less than 6a, in modulus for all values of 7. Errors 
in the 10th figures of the coefficients therefore produce errors of order 10°3 at 
most in the treble root. This is a far more favourable result than we obtained 
for our polynomial above for which 10-figure coefficients gave no correct figures 
in some roots. The treble root is worse only in the sense that we need to increase 
the precision of the coefficients by three figures to improve this root by one figure, 
whereas in the earlier polynomial if the precision of the coefficients is sufficient 
to give at least one figure correct in the roots then every added figure of precision 
in the coefficients gives one extra figure in the roots. 


Not all linear distributions are as ill-conditioned as that from 1 to 20. For 
roots (k +1), (k +2),..., (A+20) we have 


OA; _ (k +i)" 
da, (i—1)! (20—1)! * (19) 





For positive & the polynomial becomes increasingly ill-conditioned for increasing k. 
For k = 20 we have, for example 


19 
os - a = (0.21) 10. (20) 
. 44! 











156 J. H. WiILkinson: 


For k = —10 however the polynomial is far better conditioned, the worst root 
being the 18th for which we have 
Ohig (8)!9 


fe “arm = (0.20) 103. (21) 





If we knew in advance that a matrix 4 had a linear distribution of eigenvalues, 
then a simple transformation (A — pJ) with p= “ >) a;; would lead to a much 


better conditioned characteristic equation. Unfortunately we do not usually 
have such information in advance and for some distributions the transformation 
makes the characteristic equation far more ill-conditioned. - 

As a second example we consider a polynomial with roots in geometric pro- 
gression 271, 2°, 2°3,...,2°-*°. The coefficients of this polynomial vary enorm- 
ously in size; their order of magnitude is indicated below. 


420 + #19 + a4 x18 + 2-4 x17 + 278 x16 + 2713 15 4 2-19 x14 + 2-26 x13 + 
+ 2-34 x12 + 2-43 yl + 2-53 410 + 2-64 9 + 2-76 48 +. 2-89 47 + (22) 
+ 2-103 16 + 27118 45 4 2-134 4 + 27151 x3 4+ 2-169 42 + 27189 x 4+ 2-209 | 


If a matrix has eigenvalues with a distribution of this type then it is essential 
that the coefficients of the characteristic equation be determined to a fixed 
number of significant figures rather than to a fixed number of decimal places. 
Determination to 10 decimal places, for example, would, at best, give the coef- 
ficients from a,, to ay as zeros and therefore give 12 zero roots. At worst, it might 
produce for the later coefficients, random numbers of the order of magnitude 
of 10°. This would give a number of spurious roots in place of the smaller roots. 
Equation (8) yields 


6A, = — 6a,2~*"/PQ where (23) 
P = (2-* — 2-3) (2-* — 2-8)... (2-* — 2-#+!) (24) 
and 
Qa (2° =- 2°) (7° = FP)... (2 = 2) (25) 
We have 
Patho lt 2 9-2-9)... 1-2] 26 
and 
@ = —ppemar [lt — 2-4) (4-274)... (1-2-4). (27) 


The expressions in square brackets are convergents to the infinite product 
(4 — 273) (4 — 27%) (4 — 2°)... 
and quite a crude inequality shows that they lie between $ and 4 so that 


|PQ| > (th) 2-H" (28) 
and 
| dA, | < 16| da,| goa ee~a=6r) (29) 














— —— 


en eet et eee 











——— 


A A ca 


Evaluation of zeros of polynomials. I 157 


Because of the great disparity in the size of the roots it is more reasonable to 
consider the change in a root relative to the root itself, so that equation (29) 
gives 

OA, 


Ft < 16] 6a, | 288@7-A- 2, (30) 





For a fixed value of 7 this takes its maximum value when k = (19 — 7) for which 


OA, 
an 


From the order of magnitude of the a, given above we can verify that 





< 16|da,| 2#@9-"8—") for all k. (34) 


| a,| <2~$(19-r) (18—). 


indeed for higher values of 7 the coefficients are much smaller than this. We can 
write equation (31) in the form 











oe =< 16 Oa, |a,| 24 (19-1) (18—r) 
a r 
Pad (32) 
< 16 re for all k 








with a much stricter inequality holding for most values of 7. Equation (32) 
implies that the determination of the coefficients of the polynomial to 10 signi- 
ficant decimals gives all roots correct to at least 8 significant decimal places, 
so that all roots are well conditioned. Example 3 below shows the perturbation 
of the roots due to a small change in ag. 


Example 3. Accurate roots of (¥ + 271) (4 +27?) ... (v +277) + 2-31 48— 0 


10-§ xX — 0.95367 4316 10-3 x — 0.976562500 
10-5 x — 0.19073 4863 1072 X — 0.19531 2500 
10-5 x — 0.381469727 10-2 x — 0.39062 5000 
10-5 x — 0.76293 9453 10-2 x — 0.78125 0000 
10-4 x — 0.15258 7891 _ 1071 x — 0.15625 0000 
10-4 x — 0.305175781 1071 x — 0.312500000 
1074 x — 0.61035 1563 10-1 x — 0.624999999 
10-3 x — 0.122070313 — 0.125000000 
10-3 x -- 0.244140625 — 0.24999 9998 
10-3 x — 0.48828 1250 — 0.500000001 


Note that to 9 significant decimals only 3 of the roots are changed and then are 
changed by only one or two in the 9th significant figure. 


We have considered zeros in geometric progression with a ratio of 2. It is easy 
to see from the above that for a ratio less than } the condition of the polynomial 
is even better, while for ratios greater than % it becomes steadily worse as the 


ratio increases until for a ratio of 1 we have all the zeros coincident. 


Finally we consider the distribution 4,=e?*‘’*°. The corresponding poly- 
nomial is x°+ 14 and /’(x) =20x!%. The variations are given by 


04, = 0a, [Alf (Ax) | (33) 








158 J. H. Witkinson: 


or 
|6A,| = g5|4a,| since |A,| =1 for all roots. 


The polynomial is therefore extremely well-conditioned. 


6. Iterative methods for zeros of polynomials 


For reasons which will be explained below, we have used iterative methods 
for finding the zeros of polynomials. Probably the simplest method is that due 
to Newton in which a sequence of values x, is determined from the relation 


Xo = %,— f(x,)/f'(%,). (34) 


If x, is a close approximation to a root, a, and 








x%,=a+h 
then 
Xe41 = (a + h) SCE 
f(a) + hf (a) + 7"(a Jad -#"(a) + 
7 a) + hf” (a) +—— —#""(a )+° (35) 
“#"(a) ne. (a) +* 
as @ rare oD . 
f(a) + hf’ (a) + ry f(a) 
If f(a) +0 we have > 
ty =athL + on) (36) 


27 (a) 


and for this reason the process is usually described as quadratically convergent. 
It is sometimes said that in the later stages the number of correct decimal places 
doubles itself with each iteration. This clain ignores the effect of the factor 
{’'/2/'(a) and for ill-conditioned roots this factor may be quite important. If 
it is equal to 1000 for example, then if k, denotes the number of correct decimal 
places in the 7th iteration we have ultimately 


hy 41 = 2k, — 3. (37) 


If we are not proceeding beyond an accuracy of 8 or 10 decimals it is unreasonable - 
to refer to an eventual doubling of figures. 

The above remarks refer to the mathematical process in which it is assumed 
that /(x,) and /’(x,) are calculated exactly. In practice, for an ill-conditioned 
root, the accuracy to which /(x,) can be calculated in the neighbourhood of that 
root may severely limit the accuracy attainable by iteration. Let us consider 
the evaluation of the polynomial whose zeros are 1, 2, ..., 20 for a value of x= - 
20.00012345. A rough graph of the function shows us that an exact application 
of NEwTon’s method gives monotonic convergence to the root 20, and the given 
approximation is already in the region of rapid convergence. If, however, we 





Evaluation of zeros of polynomials. I 159 


attempt to evaluate the function using 10-decimal floating arithmetic we imme- 
diately run into difficulties. Let us suppose that we evaluate the polynomial 


x" +a, ,x" 1+---+4a, 


by “‘nested multiplication’’, that is by calculating the sequence 


1,% +4,.1,%(% +4, 1) +4, 9,...-. 
Now the polynomial in question may be written 
x2 _ 210x194 ... 4+ 20! (38) 
and at the second stage we calculate (x — 210) which is 
20.0001 2345 — 210 = — 189.99987655 . 


Since we are using ten-decimal floating arithmetic we must replace this by 
— 189.9998766 with an error of $(10-’). Ignoring for the moment the later 
rounding errors in the calculation of f(x), this single error leads to an error in 
the final value of 


($ 10-7) x19 > 3 (1077) 207°. (39) 


Now the correct value of f(x) is (x —1) (x —2)...(* — 20) : 19! (0.00012345) and 
it will be seen that this is much smaller than the error. The evaluation of the 
function using ten-figure floating arithmetic is completely inaccurate and we 
cannot expect the use of NEwTon’s method with the calculated value of /(x) 
to produce an improved value for the root. The inaccuracy does not spring 
primarily from the use of nested multiplication. If we evaluate the polynomial 
by calculating each term separately the result is just as bad. 


We may relate the emergence of an incorrect value of the function to the 
condition of the root as follows. At the second stage of the evaluation above 
we replaced the number — 189.99987655 by — 189.9998766. Another way of 
describing this would be to say that our evaluation is exact up to that stage for 
the polynomial beginning with 


x20 — 210.0000005 x!® + ---. 


In a similar way the error made at the next stage may be interpreted as the use 
of a modified coefficient of x18 and so on. However, we know from our earlier 
analysis that the change in the coefficient of x!® above completely alters the higher 
roots of the polynomial. More generally we may say that for a value of x equal 
to (20+ 6) the error in /(x) due to error in the first stage, may be as great as 


($1077) 20! (approximately) . 


The true value of /(x) is approximately 19! 6 so that the first error alone completely 
invalidates the calculation when 
(2 10-7) 201° 


($1077) 20%>19!6 or b<-*— 


(40) 








160 J. H. WILkinson: 


Comparison with equation (13) shows this to be exactly the estimate, on the basis 
of a linear theory, of the maximum variation in the root 20 due to a rounding 
error iN Qjg. 

In general we may say that if we take an approximation to a zero of a poly- 
nomial and then, working to a given precision, iterate using NEWTON’s method, 
we derive a succession of values which reach a limiting accuracy, after which 
further iteration yields no improvement. For well-conditioned roots this final 
accuracy will be the full precision of the computation, but for ill-conditioned 
roots it will fall short of this. The extreme point is reached when the errors 
made in the evaluation of /(x) are greater than its true value so that the calculated 
value of /(x) has no correct figures. As an example of this the DEUCE double 
precision programme (18 decimals floating) will calculate the root 20 of the above 
polynomial to 8 or 9 significant figures. It will not advance beyond this accuracy, 
however long iteration is continued. Further if a value of x of higher accuracy 
is used, the next iteration will produce a value with only 8 or 9 figures correct, 
that is, iteration will ‘“‘spoil’’ a very accurate root. (For the polynomial with 
roots exactly equal to 1, 2,...,20 a double precision programme will in fact 
take the value 20 exactly and produce 20 as its next approximation. This is 
due to the fact that no rounding errors are involved in this particular calculation. 
Later remarks in this paper may be invalidated by such special cases and we 
will not refer to this again.) 

These remarks are of particular importance when we consider iteration for 
a root which is so ill-conditioned that our calculations to a given number of 
decimals fail to determine even one figure of the polynomial correctly for values 
in its neighbourhood. An example of this is encountered in the use of single pre- 
cision arithmetic to calculate the roots 15 or 16 of the above polynomial. For 
values of x between 15 and 16 single precision arithmetic gives no correct figures 
in the calculated values of /(x). If we started with an approximation in this 
region the process would show no signs of convergence, even for values for which 
the exact use of NEWToON’s method would be successful. 

The above comments should not be construed as a criticism of NEWTON’S 
method or of iterative methods in general, since these will often involve the cal- 
culation of f(x). The limitation is a fundamental one and will reveal itself in 
almost any technique applied to the solution of such a polynomial equation. 
Indeed, in general iterative techniques deal with ill-conditioning at least as 
satisfactorily as any other in which computation is performed to the same pre- 
cision. In the root squaring method, for example, the polynomial 


f(z) = 4, 2” +-4,_,%" Bk coe oh Ay 


is first replaced by the polynomial /(x) f/(— x), which is a polynomial of degree 
nm in (—x?). The new polynomial is 


a, (— x)" + (a1 —- 2a ay, 9) (- oy Baad 


cote 


The presence of rounding errors introduced in the calculation of these new coef- 
ficients will mean that it corresponds exactly to the polynomial 


(a, + 64a,) x" + (a, 1 ss da, 1) x” ; sees: (ao > 0a) 





Evaluatior of zeros of polynomials. I 161 


instead of the true original polynomial and tlie 6a, are comparable with the values 
which arise indirectly in iterative methods in the evaluation of f(x). A further 
comparison of root squaring and iteration is made later. 


The inescapable fact is that for any root of any polynomial, a minimum 
precision in the computation is essential in order to calculate that root to a 
required precision. High precision computation is unavoidable for the resolution 
of very ill-conditioned roots. On the other hand multiple precision floating point 
arithmetic is comparatively slow, so that we do not want to work for any extended 
period to an unnecessarily large number of figures. We therefore recommend 
that iterative techniques be used in the following way. We iterate using single 
precision floating arithmetic until either (a) the root has converged to a pre- 
assigned number of figures or (b) we have completed a certain fixed number of 
iterations. We then continue with double precision arithmetic again continuing 
until either (a) the root has converged to a pre-assigned number of figures (greater 
than in the first stage) or (b) we have completed a fixed number of iterations. 
We can continue in this way using higher precision arithmetic. The most accurate 
that has been used on DEUCE is treble precision. This has 3 words for the frac- 
tion, and one word for the index and gives about 27 decimal digits. The condition 
(b) prevents us from iterating indefinitely for a root which needs higher precision 
for its resolution. Although a very large number of polynomial equations, arising 
from different sources, has been solved, treble precision has always proved ad- 
equate so far, though one could easily invent examples with any degree of ill- 
conditioning. 


7. Existing DEUCE programmes 


Several iterative techniques for finding zeros of polynomials have been pro- 
grammed for DEUCE. The first of these is based on NEwToNn’s method and works 
in the complex plane. Starting from an arbitrary value of z9 (we comment on 
the initial choice later) a sequence of values is found by NEwrTon’s rule, and when 
convergence has reached a point at which the relation 





is satisfied, where k, is a pre-assigned integer, this value is accepted as a root. 


The calculation of /(z) and /’(z) is carried out as follows. The two sequences s, 
and s, defined by 


Sn41= 0 S, =25,4, +4, (ry =0 to n), (42) 


Sn41 =O S,=25;41+5,41 (7 =0 to n) (43) 


are calculated simultaneously to obtain f(z) =sp and /’(z)=sg. When a zero, 
x, has been accepted, it is divided out from the polynomial to obtain /(z)/(z — x), 
a polynomial of degree (n —1). The coefficients of the reduced polynomial are 
precisely the values s, of the sequence above calculated for z= x, so that the 
programme which performs iteration will also perform the division. Most of the 
polynomials which arise in practice have real coefficients so that when a complex 








162 J. H. Wivkinson: 


zero is found, it is to be expected that its conjugate will be a zero of the reduced 
polynomial. This is therefore used as the first approximation to a zero of the 
reduced polynomial. It is not automatically assumed that the complex conjugate 
is a zero of that polynomial however, and iteration is performed. Because this 
first guess is an accurate approximation to a zero, the second of a complex con- 
jugate pair is always found with only one or two iterations. Note that in this 
way we do not obtain a pair which are exactly conjugates. The extent to which 
they are complex conjugates proves to be a very good measure of their accuracy. 


A real first approximation to a root of a polynomial with real coefficients, 
produces a succession of real values and cannot converge to a complex root. To 
guard against this, each root that is accepted is tested to see if it is a real root. 
The criterion for a root (x-+7¥y) being real is taken to be that 


y 
x 


<> (44) 








where ky is a pre-assigned integer. When a real root, according to this criterion, 
has been accepted, the first guess for the next root is taken to be (1 +7) (x —7y) 
in order to ensure departure from the real axis. As a final step, when all the roots 
have been found, the original polynomial is used to produce improved roots by 
iteration. We comment on this below. 


The above technique has been coded using single-precision floating arithmetic 
and only a little experience of its use was necessary to show its limitations. 
Polynomials were frequently derived for which the process failed to converge 
even when the tolerance k, was lowered almost to zero. An analysis of these 
examples showed that this was invariably due to the phenomenon discussed 
above, namely the poor evaluation of f(z) and it was decided that higher precision 
arithmetic should be used. Since, however, polynomials with complex coefficients 
had proved to be very rare it was decided that it was worth programming a 
method which took advantage of this. The method due to Bairstow [/] was 
therefore preferred, while a third, more general technique due to MULLER [4] 
was programmed for polynomials with complex coefficients. 

Barirstow’s method is essentially a technique for finding the real quadratic 
factors of a polynomial with real coefficients. Starting from an approximate 
factor (x?— px —/), an improved factor x2— (p+ 6) x —(/+ dl) is found as fol- 
lows. We write 


f(x) = (x*?— px —1) q(x) +7(x) (45) 


where q(x) is the quotient (of degree » — 2) and r(x) is the remainder (degree 
-untty). We may write 
r(x) =ax+b. 


Differentiating (45) with respect to / and p, we have 


0 =—9(x) + (a*— px —1) 2 q(x) + r(x) (46) 


and 
0 =— xq(x) + (8*— px —)) Zea(x) + 3, 7(4)- 








Evaluation of zeros of polynomials. I 163 


Equations (46) show that x) is the remainder when q(x) is divided by 


é 

at” 
é . ‘ 

(x?— px —/) and ap r(x) is the remainder when xq (x) is divided by (x*— px —1). 


If, therefore, we write 


g(x) — (x*— px —I) T(x) tex +d (47) 
then MH r(x) =cx+d and 
£1 (2) = x(cx +a) modulo (x*— px —1) 


x(ch+d)+cl. (48) 


We now choose 6 and 6/ so that 
or er bi 
r+ ap bp + 7, 6l/=0 giving 


a+(cp+d)6p+cdl=0, (49) 
b+ (cl) dp +d61 =0. (50) 


The most convenient way uf programming the process seems to be that described 
by OLVER [3]. The quantities 9, and 7, defined by the following recursive formulae 
are first derived 


9n+2—=%n41=9 Gs =P4s41 +4542 +4; 7 =o 1,...,0, (51) 
T,=T-1=0 Ty=pTy41 +142 +942 S=n—2,n—1,...,0. (52) 


n 


The next approximation is then derived from the formulae 


D6p=T9—Nhq Ddl=Mq,— 19% (53) 
where 
M=1T,+£] D=TZ—MT,. (54) 


The process gives quadratic convergence of both ~ and / as is to be expected from 
equations (49) and (50) in which squares and products of 6 and 6/ have been 
ignored. It does not require the factors of (x*—~x—lJl) to be complex and it 
differs from NEwrTon’s formulae in the complex plane by second order quantities. 
Thus applied to a function /(x) of degree 2 it produces in one step the obvious 
quadratic factor starting from any quadratic factor as a first approximation. 
NEWTON’S process in the complex plane does not do this. 

After accepting a quadratic factor, that factor is divided into f(x) to give 
a polynomial of degree two lower. The coefficients of this polynomial are the 
Gn» Jn—1» +++» 9g Calculated from equation (51) so that the same programme is 
used for dividing out as for iterating. After a quadratic factor has been divided 
out, it is used as the first approximation to the next factor to be calculated. This 
has considerable advantages as will be seen in the next section. 








164 J. H. WiLkINson: 


Single-, double-, and treble-precision Bairstow programmes exist on DEUCE 
and again there is the facility for using the original polynomias to improve all 
the calculated factors by iteration. Together they give the most powerful and 
fastest method that has been coded for the machine. 

For polynomials with complex coefficients the following iterative scheme is 
used. A sequence of values z, is derived, z,,, being calculated from z,_», z,_,, 
z, and the corresponding values of f(z), as the root nearer to z, of the quadratic 
through the points (z,_, f(z,—2)) (2,1, f(%,—1)) (2. f(z,)). MULLER [4] has de- 
scribed a particularly elegant method for finding this root. The auxiliary quanti- 
ties h;, A; and 6; defined by the relations 

h; 


ay a; = h; ——=),; 6;=1 + A; (55) 
hj-y 


are introduced. /;,, is then determined as the smaller root of the quadratic 
A#t+ BA+C=0 
where 
A= Ai lh of, a= fi 19; + /| B =f; 2A; heal f 1 OF -+ f, (A; + 0;) 


The iteration is continued until 


a ; a ‘o- k 


where & is a pre-assigned integer. 


When a zero x has been accepted we can divide out the factor (z — x) to form 
the polynomial of lower order, /(z)/(z — x) as was done with the other two methods 

Alternatively we can continue with the function /(z)/(z— x) itself and find 
its zeros. The second alternative is more general in that it can be used to find 
zeros of functions other than polynomials. When ¢ zeros x, Xs, ..., x, have been 
found we continue with the function /,(z) defined by 


fr(2) * it) , 


(z—4,) (2—*%_)...(z—%,) 


wt 
—— 





In the present situation this second alt\.native requires far more computation 
than the first since instead of working with polynomials of progressively diminisli- 
ing order we work with a function of increasing complexity. Its use has never- 
theless sometimes been recommended on the grounds that the explicit division 
by successive factors (z— x,) leads to such a serious accumulation of rounding 
errors that the later roots are inaccurate. While recognising the great value of 
the alternative technique and its great generality, in our experience it is un- 
necessary for polynomials. We comment further on this in section 8. 

The Miiller technique has been programmed using both single- and double- 
precision arithmetic. The programmes have been used in a more general manner 





Evaluation of zeros of polynomials. I 165 


to find zeros of functions other than those expressed explicitly as polynomials, 
and for such work they have proved very effective, particularly for functions 
for which the calculation of the derivative is difficult. For finding the zeros of 
polynomials with real coefficients they have proved inferior to the Bairstow 
programmes. This is because the number of iterations required to locate a root 
starting from arbitrary vaiues has proved to be appreciably greater in general 
for the Miiller technique than for Bairstow. The amount of work in an iteration 
is much the same in both techniques since MULLER’s technique involves m complex 
multiplications and Barirstow’s technique 4” real multiplications. 


In the Newton programme after a complex root had been divided out its 
complex conjugate was used as the first trial root of the reduced polynomial. 
A corresponding technique is used on DEUCE in the Miiller programme in the 
version in which the accepted factors are divided out. After accepting a root x 
and dividing by the factor (z — x) the first 3 values for which the reduced function 
is evaluated are ¥(1—), ¥(1 +) and %, where % is the complex conjugate of x 
and & is a suitable constant. The value of k does not appear to be very critical 
and k =} has been used on DEUCE. These three values correspond to 4 = — $ 
and their use ensures that the second of a complex pair is located almost at once 
though as remarked before in connexion with NEwTon’s method, we will not 
in general find exactly complex conjugate values. After finding x and then ¥ 
the first three values for which the next reduced function is evaluated are x (1 —), 
x(1+h) andx. Now x =~ so that the three values will be almost exactly x (1 — A), 
x(1 +) and x. We may regard this merely as a device for ensuring that we begin 
to look for the next root in the neighbourhood of x. 

f (2) 
(z— 4x) (z—+%) 
than dividing out, we do not wish to work with the value z = x since this makes 
the denominator exactly zero. We therefore start with the three values y(1—’), 
y(1-+-k) and vy where y = x(1 +6). On DEUCE the value 6 =2° has been used 
which ensures that we start looking for the next root in the neighbourhood of +. 


For general functions, for which we work explicitly with rather 


It is interesting to consider the most economical way of determining the zeros 
of polynomials of arbitrarily bad condition defined explicitly by their coefficients. 
If it is assumed that the zeros are required correct to single precision only, that 
is to about 9—12 significant decimal digits, then the Miiller technique has distinct 
advantages. A programme has been designed for DEUCE which employs floating 
arithmétic with up to 31 words in the fractional parts of the numbers but requires 
only multiplications of single word numbers by multiple word numbers. We 
begin iterating for each zero using single precision arithmetic and _ steadily 
increase the precision until the zero has converged to single precision. A well- 
conditioned root will therefore be determined without using more than double 
precision arithmetic and that only for one iteration, while iteration for ill-condi- 
tioned roots will employ only such precision as is essential. In the evaluation 
of the function we need to add together floating numbers both of which may 
be of high precision, but all multiplications will be of a single precision by a high 
precision number. In the equations (55) and (56) we need employ only single 
precision arithmetic. When a zero z, has been found correct to single precision 
we continue with the function /(z)/(z — z,) and again the numerator and denomi- 








166 J. H. Wirkinson: Evaluation of zeros of polynomials. I 


nator are required only to single-precision. The virtue of the Miiller technique 
is that we do not have to determine well-conditioned zeros to high precision in 
order to obtain to single precision ill-conditioned zeros found subsequently. An 
assessment of this programme shows that even if all the zeros require five-word 
arithmetic, it will be as fast as the existing treble precision programme. In case 
it may be felt that the use of high precision arithmetic is somewhat extravagant 
it should be emphasized that if this programme uses 7 word arithmetic to calculate 
a zero of a given polynomial then no other method will evaluate that zero to 
single precision without, at some stage, using at least y word arithmetic. If the 
explicit polynomial has been derived by expanding some other expression, then 
we may well question the wisdom of this step. If on the other hand we are con- 
sidering the strict problem of calculating zeros of explicit polynomials the above 
programme would appear to achieve results with the maximum efficiency. 


Acknowledgment. The work described above has been carried out as part of the 
research programme of the National Physical Laboratory and is published by per- 
mission of the Director of the Laboratory. 

List of references see Part II, p. 180. 

Mathematics Division, 
National Physical Laboratory, 
Teddington, Middlesex 


(Received May 6, 1959) 








Numerische Mathematik 1, 167—180 (1959) 


The evaluation of the zeros 
of ill-conditioned polynomials. Part II 
By 
J. H. WILKINSON 


8. Assessment of the iterative techniques 


The principal objection that is raised to the use of iterative methods is that 
for arbitrary starting values the number of iterations will often prove to be exces- 
sive. Our experience based on the solution of a very large number of polynomials 
from many different sources has not supported this view. On the contrary the 
number of iterations required has usually been surprisingly low. Usually 12 to 
16 have sufficed for convergence in spite of the fact that well conditioned roots 
are found to an unnecessarily high accuracy; as many as 30 iterations for one 
root has been extremely uncommon. It is probable that many alleged examples 
of lack of convergence have been due to the use of insufficient precision in the 
computation as described above. This has certainly been true of several examples 
that have been presented to the author for examination. It is interesting that 
ill-conditioned polynomials have been among those needing fewest iterations. 
This is because such polynomials have, in general, moderately close zeros and, 
since in DEUCE programmes after a linear or a quadratic factor has been divided 
out, it is used as the first approximation for the reduced polynomial, this will 
tend to be a good approximation in ill-conditioned examples. 

There is one situation, however, that has been specially catered for, avoiding 
the need for an excessive number of iterations. Let us consider the polynomial 
x20 44 and take as our first approximation x =% using NEwton’s method. The 


next approximation is 
1 i+(i)* . 1 2% 


*=2~ 200)" * 2 20 
== — 26214. 
For a large value of x, we have 
- 1 +(4,)% 
X41 = X%, — 02, 
19 
="30 **" 


The convergents therefore diminish very slowly and it takes many iterations 
before we obtain a convergent which is of the order of unity. Since all the roots 
are of modulus unity this is most unsatisfactory. A similar difficulty is encountered 
with both the Bairstow and the Miiller technique. Quite a simple device suffices 
to deal with this. We limit the variation of successive approximations by demand- 
ing that the relation 


¥r +1 
xy 


<C 

















168 J. H. Witkryson: 


for some constant value of C, be satisfied. If any of the above methods leads 
to a value of x,,, which violates this relation then we continue with A x,, where 
K is a complex number. The values of C and & are not critical and C =}, 
kK =1+27 have been used on DEUCE. 

A second criticism of iterative methods is that if we are to rely on them com- 
pletely for our root evaluation, then we must divide out the roots as we find 
them. This can be avoided with the Miiller techniques as was shown above, but 
for NEWTON’s and Bairstow’s methods division by accepted roots is practically 
essential. It is commonly believed that this repeated removal of roots leads 
to gross errors in the roots which are found later. Although it is true that if large 
roots are found before small ones then the latter may be catastrophically in error, 
an error analysis by the author [7] has shown that provided roots are found 
in increasing order of magnitude the process is remarkably stable. All that is 
necessary is that each root be found to the limiting accuracy as defined above. 
We illustrate this by considering the ill-conditional polynomial used as an example 
by OLVER [3]. The polynomial is 


1250162561 x16 + 385455882 x)® + 845947696 x4 + 2407 75148 x38 + 
+ 2479 26664 x}? + 642493562" + 41018752 x! + 9490840 x® + 41 78260 x8 + (58) 
+ 837860 x? + 267232 x8 + 44184 x5 + 10416 x4 + 1288 x8 + 224%? + 16% + 2. 


The zeros of this polynomial, calculated using double-precision arithmetic, and 
dividing out the quadratic factors as found, are given below. 


— 0.0186949953 44575 74 + 0.25304 56818 77087 20 7 
— 0.00232094460991765 + 0.29258 3745103485 46 i 
— 0.00049 145363595663 + 0.30418 239302312581 7 
— 0.00014 26406 86229 90 + 0.30861 21241 90245787 
— 0.00004 71327 1721144 + 0.31066 18480 81534 84 i 
— 0.00001 48358 66297 06 + 0.3116963042 8092606 i 
— 0.00000 30543 26902 26 + 0.312196968605743 567 
— 0.13244 72469 9024619 + 0.13600 55079 51377 64 7 


Accurate zeros of the polynomial, found by iterating to treble precision in the 
original polynomial are 

— 0.0186949953 4457621 + 0.25304 56818 7708848 7 

— 0.0023209446 10861 65 + 0.29258 374510338084 7 

— 0.00049 14535 99303 82 + 0.30418 2393025528 13 @ 

— 0.00014 264108973210 + 0.30861 21242 1586387 7 

— 0.00004 71311 1029385 + 0.31066 18478 80804 22 7 

— 0.00001 48384 5720927 + 0.31169630468755808 7 

— 0.00000 305297511339 + 0.3121969683 72284 71 7 

— 0.13244 72469 90246 20 + 0.13600 55079 51377 64 7% 


Comparing the two sets of values we see that the first pair of roots was correct 
to 15 decimals, the 2nd to 12, the 3rd to 11, the 4th to 10, the 5th to 9, the 6th 
to 9, the 7th to 9 and the 8th to 17. We may be tempted to say that the low 
accuracy of the 5th, 6th and 7th pairs of roots is due to the accumulation of 
errors made when dividing out the earlier roots. However this is not true. These 
are the most ill-conditioned roots, and even when we iterate for them in the 
original polynomial using double precision arithmetic we obtain only 9 correct 
figures. Dividing out has lost no accuracy in these roots. On the other hand 


Evaluation of zeros of polynomials. IL 169 


the last root is well conditioned and even after dividing out all the inaccurately 
determined roots, is found correct to 17 decimal places, although the computation 
was performed to the equivalent of only 18 decimals even in the most accurate 
iterations. These results are in full agreement with the predictions of the error 
analysis referred to. They have been confirmed on numerous examples which have 
been analysed in detail and although it has been the general policy on DEUCE 
to use the original polynomial to improve roots by iteration, there has been 
no evidence that this has ever resulted in any substantial improvement in accuracy 
provided the roots have been found in increasing order of magnitude. In the 
above example this condition was violated once, in that the last root found was 
the smallest. Apart from this they were in increasing order of magnitude. The 
violation of the rule was unimportant in this example because there is no great 
disparity in the moduli of the roots. An example is given later which illustrates 
its vital importance when the roots vary considerably in order of magnitude. 

It is interesting to compare the performance of iteration with that of root 
squaring. All the roots of this polynomial could be found correct to 4 significant 
decimals by iteration without ever working to more than 13 significant decimals, 
even when we include the errors due to dividing out roots. If we were working 
on a desk machine the earlier iterations could be done to low accuracy, working 
to the full 13-figure accuracy only during the last iteration and the root-removal 
step. However we would not know in advance that this accuracy would suffice. 
The total number of iterations is surprisingly low. The quadratic factors found 
above when working to double precision required 11, 10, 10, 10, 9, 9, 9and 2 iterations 
respectively. Since the polynomials become of successively lower degree as 
each factor is divided out the total volume of work is less than might be expected. 
By contrast the polynomial was regarded as too difficult for the root squaring 
process and OLVER states that it failed to determine all the moduli of the roots 
even when 20 decimals were retained in the initial transformations, though a 
4-decimal accuracy in the results was all that was demanded. 

As a more direct comparison of iteration with root squaring we take another 
of the examples given by OLVER. The polynomial is 


2.03253121 x28 + 3.4356048 x25 + 25.1783048 x}4 + 37.651096 x23 + 
- 128.218748 x}? + 166.44768 x4 + 345.07256 x! + 378.908 x° +- 
+ 524.327 x8 + 468.88 x7 + 443.576 x® + 304.08 x° + 190.68 x* +- 89.6 x8 + 
+ 32.822+ 8x +1. (59) 


The roots, calculated by MULLER’s technique using double precision arithmetic, 
and dividing out factors as found, are given below 


- 0.293 5045292 3438477 + 0.1434992969 27500 52 7 
0.2935045292 34384 72 — 0.1434992969 27500 54 i 
- 0.2244700578 79021 57 0.45092 795830149008 i 
0.22447 00578 79021 60 — 0.45092 795830149004 i 


0.14762 37802 2667003 0.77175 720106385244 7 
0.14762 37802 2667004 — 0.77175 720106385246 7 


~- / 
0.09003 99887 4153312 + 1.0611920 5984318521 
0.09003 99887 41533 13 — 1.0611920598 43185 2 i 
0.05086 4435604355 41 + 1.29691 127° 07332012 
0.05086 4435604355 11 — 1.29691 12790733198 i 











170 J. H. WILkINSON: 


— 0.0256687105 01834 74 + 1.47437 71438 26687 2 i 
— 0.0256687105 01835 58 — 1.47437 71438 26687 8 i 
— 0.01049 3550094787 52 + 1.59629 54955 541020 7 
— 0.01049 3550094786 38 — 1.59629 54955 54101 2% 
— 0.00248 92024 4592942 + 1.6671203612177814 i 
— 0.00248 92024 4592999 — 1.667120361217781 8 i 


It will be seen that they are not quite conjugate pairs. The accuracy of these 
roots was determined by comparing them with those obtained using the triple 
precision Bairstow programme. The underlined figures are the first incorrect 
figures and all of the roots are correct to 1 part in 10 We could have obtained 
all the roots correct to 5 significant decimals without using more than 8 significant 
decimal arithmetic. The dividing out process did not cause any appreciable 
loss of accuracy even although the poorer conditioned roots were found last. 
These results are again in striking contrast to those obtained with the root squar- 
ing process. OLVER states that seven transformations were needed to separate 
the zeros to four-figure accuracy and by that stage 9 figures had been lost in 
about half of the coefficients. Two of these were regained when the roots were 
found, so that effectively 7 were lost. The calculation exhibited below shows 
just how little work there is in the Bairstow method for this example. We start 
with =/=0 and immediately obtain the next values of # and / without ap- 
preciable calculation. These are /=0 ~=—0.2. The next 4 steps are as given. 
Very low accuracy arithmetic may be used in the early stage so that the com- 
putation is quite trivial. OLVER [3] has described a simple criterion for deter- 
mining the number of figures to be retained at each step. The value obtained at 
the end of the last iteration is (x? +0.5870x +0.1065). The true factor is (x? + 
0.58702 x + 0.10674) so that we are already in the region of rapid convergence. 
Two more iterations are adequate to obtain 8 decimals and the factor can then 
be divided out. These last two stages must be performed more accurately than 
those given below but the use of 8 significant decimals would be adequate. Since 
the later factors are more ill-conditioned than the first we cannot employ quite 
such low accuracy computation for the initial iterations. However the process. 
of dividing by accepted factors assists in two ways. First the order of the poly- 
nomial decreases progressively and secondly the polynomials become better 
conditioned as clusters of roots are removed. On DEUCE using the double pre- 
cision Bairstow programme the number of iterations needed for the successive 
factors was 10, 8, 8, 8, 8, 7, 7 and 2 and the maximum error was 1 in the 16th 
significant decimal. In general there are two more iterations per root here, than 
are necessary for 8 decimal! calculation. These examples are in no way exceptional, 
quite a high proportion of the examples we have tried have needed as few itera- 
tions. On a desk machine we are able to carry the technique used on DEUCE to 
its logical conclusion and use very low accuracy arithmetic in the early stages, 
but on most high speed computers we cannot gain by working to less than one- 
word precision. 

Examples which have been analysed in detail justify the view that iterative 
methods demand the use of no more than the minimum precision that is inherently 
necessary to deal with the ill-conditioning. Perhaps the main criticism that can 
be levied against it is that if we are dividing out roots, then we must determine 





Evaluation of zeros of polynomials. II 171 
even the well-conditioned roots using arithmetic of that precision which is ne- 
cessary to determine the ill-conditioned ones to the required accuracy. The method 
described at the end of Sect. 7 does not even have this weakness. 

The importance of calculating the roots in order of increasing magnitude was 
mentioned earlier. The following example will serve to emphasize how important 
this can be. In example 3 above the roots of the polynomial 


(x + 274) (x + 27%).. 


: (x + a =) =f 2°31 419 



































1=—0.0 1=—0.05 1=—0.10 1=-—.111 
(x) p=—0.2 p= —0.36 p=—0.53 p= —.607 
q(x) T(x) q(x) T(x) q(x) T(x) q(x) T(x) 
2.03253 121 2.0 2 2.03] 2.03 2.03 2.03 2.033 2.033 
3.43 56048 3.0 3 2.71) 1.98 2.36 1.28 2.202 .968 
25.1783048 24.6 24 24.1 | 23.29] 23.73 22.85 23.616 22.803 
37.651096 33 28 28.8 | 20.32] 24.84 12.60 23.072 9.123 
128.218748 122 116 1116.6 [108.12] 112.68 |103.73 [111.593 103.524 
166.44768 142 119 | 123.0 | 83.06] 104.25 48.02 }| 96.150 32.298 
345.07256 317 293 | 295.0 |259.69] 278.55 |242.73 |274.323 | 243.227 
378.908 315 257 | 266.6 168.96] 220.85 87.40 | 201.721 50.497 
524.327 461 410 | 413.6 1339.79] 379.42 1308.83 1371.433 | 313.783 
468.88 377 295 | 306.6 {175.83 ] 245.700 | 73.282] 221.029 24.958 
443.576 368 309 | 312.5 |232.21] 275.412 |205.690] 268.182 | 218.203 
304.08 231 169 |176.3 | 83.91] 133.541 | 17.197]116.7593| —1.8460 
190.68 144 110 |111.6 | 69.78] 92.362 | 62.679] 90.0389] 66.9389 
89.6 61 39 40.6 | 11.28] 27.294 |—7.646] 21.9861 |— 18.4409 
32.8 20.6 12.8] 12.6 5.05 9.0980} 6.882] 9.4601 13.2235 
8.0 3.9 1.43 0.4487 — 0.1827 
1.0 0.22 —0.14 — 0.1476 0.0608 
dp =— 0.16 | dp = — 0.17 dp = — 0.077 dp = + 0.0200 
61=—0.05] dl-=—0.05 61 — 0.011 d61=+ 0.0045 


were given. These were calculated using (x? +0 +0) as the first approximation, 
all the roots being then found in increasing order of magnitude. The polynomial 
was solved using BAIRSTOW’s method and no more than double precision arith- 
metic. All roots were found correct to 17 decimals as was verified by purifying 
them with the treble-precision programme. The same example was tried again 
using a_first approximation near to (x? +3% +-%) so that the two largest roots 
were found first. The results are given below. It will be seen that after the first 
3 roots they are quite useless. 

Roots of (x +27) (x +27)... (x 4+2°%) +251 x19 found by iteration, largest 
roots first, using double precision 


+ 0.01565 2764 2 


— 0.500000002 
— 0.24999 9998 


— 0.124999919 


— 0.06614 1329 


— 0.057668540 


+ 0.02420 5717 4 
+ 0.04736 8347 7 
+ 0.00849 0280 7 


— 0.00961 0341 
+ 0.04193 0285 


+ 0.03579 2108 -+ 
+ 0.04528 1360 2 


+ 0.00847 7427 


- 0.02799 3309 + 
+ 0.03210 7627 2 


0.04456 2246 


0.03723 1856 i 


0.02440 42532 


+ 0.04293 8042 2 











172 J. H. Witkinson: 


Tt is not our intention to include a full error analysis here, but it is worthwhile 
to see why serious errors must arise in an example of this kind. For simplicity 
we discuss NEWTON’s method for the unperturbed polynomial (* +27) (« +2>%)... 
(x +272) = f(x). Suppose we accept — (+6) as a zero where 6=1078. Such 
an approximation would be obtained using double precision arithmetic. We now 
divide out the corresponding factor giving 


f(x) = (x 4-2+6) g(x) +7 (60) 


where g(x) is a polynomial of degree 19, and 7 is the remainder. Let us suppose 
we perform the division process with no rounding error. Then 


r= f(—$—8) = —8(—4 — 4) (—4— 6) (— re — 8)... (—$ +2 — 9). 
Since 6 =107¥8 this gives 
[7| = 64-8-ae--- (§ — 2) 
= 62°19 (4 — 274) (4 — 27-4)... (4 — 2°) 
>d62°4 
= 2-21 § = 2-21 40-18-~ 2-81, (61) 


Even if we find the exact zeros of g(x) they will be zeros of (/(«) —7) and not of 
f(x). The constant term of (f(x)—v7) is (2-°—r) instead of 2-#° and since 
|| >2-®! this means that the constant term has been multiplied by approximately 
2129. Now the constant term of a polynomial is the product of its zeros. Some of 
the zeros of (/(«)—v) must therefore differ completely from those of f(x). It 
will be readily verified that this difficulty does not arise if an approximation to 
the factor (x + 2~*°) is found first. 

In none of the techniques described above is there any guarantee that roots 
will be found in order of increasing magnitude and this remains a potential 
weakness. However in practice it has not proved tiresome. Starting with a 
very small approximation to a root in the Newton and Miiller techniques and with 
small values of # and / in the Bairstow technique, the stratagems described above 
have resulted in roots being found roughly in order of increasing magnitude. 
The iteration of calculated roots in the original matrix is to be regarded rather 
as a precaution against the possibility that the largest of roots with a big dispersion 
may have been found first, rather than as a method of improving accuracy when 
the roots have been found in the natural order. There has been no recorded example 
so far of such an event and usually only one iteration of accepted roots in the 
original polynomial has been necessary. 


9. Use of DEUCE programmes for calculating eigenvalues 

The direct calculation even to single precision of the characteristic polynomial 
of a matrix of general form is a severe problem. In order to make use of the 
DEUCE polynomial programmes for finding the eigenvalues of matrices we 
must first transform the matrix into a form in which the characteristic polynomial 
can be more simply calculated. In this connexion two different similarity trans- 
formations have been used extensively on DEUCE. Before describing them we 
must consider the general strategy. 








Evaluation of zeros of polynomials. I 173 


We start with a matrix A of general form and we assume that its eigenvalues 
are well determined. From it we produce by a similarity transformation a matrix 
B of simplified form so that 

B= AC. 


Rounding errors are involved in this transformation but, if the method used is 
a good one, the eigenvalues of B will still be very close to those of A. We there- 
fore concentrate on finding accurately the eigenvalues of B. Now it may happen 
that the distribution of the eigenvalues of A (and therefore of B) is such that the 
characteristic polynomial has well-conditioned roots. In this case if we form 
the characteristic equation of B very accurately we will obtain the eigenvalues 
of B to corresponding accuracy. This will not imply that we have obtained the 
eigenvalues of A to this same high accuracy. The accuracy to which we have 
the roots of A, is in any case limited by the accuracy of the similarity trans- 
formation. If this transformation has been performed using single precision 
arithmetic then the best we can expect is that the eigenvalues of A will be found 
correct to-single precision. We may regard the calculation of the characteristic 
equation of B to high accuracy as a means of providing ourselves with some 
protection against its having ill-conditioned roots. 

For symmetric matrices A there are a number of very good methods for find- 
ing eigenvalues which give accurate results even when the matrix has many 
multiple and very close roots. For such matrices we will therefore have no need 
to rely on the use of the characteristic equation with all its dangers. For unsym- 
metric matrices we are not in such a happy position and it is for these that the 
DEUCE methods based _ on the calculation of the characteristic equation have 
been used. 

The first method is that due to LANczos, in which a similarity transformation 
is derived which produces a matrix B of triple diagonal form. The DEUCE 
programme for the unsymmetric matrices has been described elsewhere [4]. For 
reasons which have been described by WILKINSON, there can be a considerable 
loss of accuracy in the eigenvalues when this transformation is applied to un- 
symmetric matrices (though not for symmetric matrices). Accordingly the trans- 
formation has been programmed on DEUCE using double precision. The matrix B 
is of the form 

% By 
° 0 hin 1 a Bs 
1 a3 By 
1 


“nt 
If used on symmetric matrices then all the £, should be non-negative and, of 
course, all the roots real. The characteristic equation of B may be calculated 
quite simply from the recursions 

Po(A) =1 py (A) = (% — A) ' 

p, (A) a (a, rs i) p, 1 (A) — £9, 2 (A) r=2ton (62) 
and is given by p,,(A) =0. The calculation has been coded using treble precision 
aithmetic. This may sound extravagant but since it involves only n* multiplica- 








174 J. HL. WILKINSON: 


tions the time taken is quite negligible compared with the time of the Lanczos 
transformation; for a matrix of order 15 it takes about 6 secs. The eigenvalues 
are then found by the DEUCE Bairstow programme. It has been used on a 
large number of real matrices with complex roots and has given very accurate 
results. No matrix has yet arisen in practice for which the characteristic equation 
has been too ill-conditioned but it has not been used on matrices of order greater 
than 30 and for such matrices the possibility of this happening is considerably 
greater. However, in practice it would appear to have a good deal in hand. The 
eigenvalues of A have usually been of more than single precision accuracy. It 
is remarkably fast, the average computing time taken to find the eigenvalues of a 
(45x15) matrix after deriving the characteristic equation of B, being about 
13 mins, that is 6 seconds per root. To put these results in perspective we mention 
that DEUCE has 2$ millisecond multiplication and division times and no auto- 
matic floating facilities. 

It is evident that the above programme applies only to real matrices A. For 
complex matrices, B is also in general complex and the characteristic equation 
has complex coefficients. For such matrices we have not resorted to the explicit 
calculation of the characteristic equation from B, but have used the generalised 
Miiller programme, evaluating |(B —AJ)| for each value of A from the recursions 
(62). We have |B—AI| =, (A). It has been shown [7] that the evaluation of 
|(B—AJ)| in this way does not suffer from the ill-conditioning associated with 
the characteristic polynomial. We need not therefore use high precision arith- 
metic. Since we could use this technique equally for real matrices it might well 
be asked why the use of the characteristic equation has been preferred. The 
balance of the computation in the two methods for real B is as follows. 

The formation of the characteristic equation requires 2m? high precision 
multiplications. After this each iteration requires 47 multiplications at the stage 
when ¢ roots remain to be found, since we divide out the factors as we find them. 
In general only a few of the iterations will be calculated to high accuracy. 

If we use the Miiller technique it is true that there is no need to use high 
precision arithmetic at any stage. On the other hand since the A’s are in general 
complex, all arithmetic is complex arithmetic. The evaluation of |B—AlI| 
requires 2” complex multiplications and when 7 roots x, x2... x, have been found 
we need to calculate 

|B—Al| 
(A—x,) (A— 4g)... (A— 4%) 





so that y more complex multiplications are needed per iteration. In addition the 
Miiller technique has usually required rather more iterations than the Bairstow. 
It is not easy to balance these considerations but it is certainly true that on 
DEUCE the characteristic equation technique has proved the faster. 

The other similarity transformation which has been used is that due to WIL- 
KINSON [6] in which the matrix A is transformed to a matrix B of almost tri- 
angular form, whose elements satisfy the relation 


b;; =0 7>t+1. 


This method is a modification of another due to GIVENS. 





Evaluation of zeros of polynomials. 11 175 


The characteristic equation of B may be calculated from the recursions 


Po(A) =1 =p, (A) = (011 — A) ile 
p, (A) = (6,,— A) py—1(A) —~ Oy, ». 1 5. 1,rP, —2(A) +6, ».9% 1,72, -29 1Py- 3 (A) 
—b, ,-36, -2.9%~00-~0" ~3,r-2P,—a(A) sh + 6,16, 1,75, 2,7 1+++ O19 P9(A) (63) 


and is given by #,,(A) =0. This has been coded on DEUCE using double precision. 
Treble precision computation is rather tiresome here solely because of the limited 
size of the high speed store on DEUCE and the number of instructions in the 
treble precision subroutines. There are approximately §* multiplications in 
the calculation of the characteristic equation. 


Again we have the choice of using the generalised Miiller technique for the 
evaluation of the determinant of |(B—AJ)| and working with 


|B—AI| 
(A—%,)...(A—%,) 





when ¢ roots have been found. Each evaluation of | B — A/| involves $n? complex 
multiplications but because of the stability of determinant evaluation [7] com- 
pared with the evaluation of polynomials, this can be done using single precision 
arithmetic. The saine decision has been taken as for the Lanczos programme. 
Explicit calculation of the polynomial has been used when B is real and the 
generalised Miiller technique when B is complex. 


To give some idea of the effectiveness of the programmes for finding zeros of 
polynomials the results obtained for three matrices are given. The first two 
examples were selected from the literature because in both cases specific refer- 
ence was made to the inability to determine the roots accurately from the char- 
acteristic equation. The first is taken from a paper by BROOKER [8] on the 
Lanczos method for symmetric matrices. It was solved using the Lanczos pro- 
gramme described above and gave the eigenvalues below. These proved to be 
correct to all the figures quoted. It is interesting that as eigenvalues of the 
transformed matrix B the roots obtained were correct to more than double pre- 
cision so that it was the accuracy of the similarity transformation rather than of 
the root finding programme which was the limiting feature. The roots of the 
characteristic equation were found in 80 secs. 


Calculated roots of Brooker’s matrix (Multiplied by 10) 
Ay = 0.64379 9133667302 Ag = 1.66324 60208 89680 
A, = 0.73597 11885 37465 Ag = 1.71307 5618005174 
A; = 0.84225 2705646369 Ay = 1.773563338214251 
A, = 0.97209 2161618017 Au = 2.3163948397 84262 
As = 1.03215 76243 09478 Ayg= 2.67733 29795 40935 
Ag = 1.22787 5231815480 hig = 4.62766 2026942646 
Aq == 1.4342287614 63870 Aig = 13.34034 83695 65070 


As a second example we take the matrix of order 11 used by RUTISHAUSER [9]. 
This is a symmetric matrix defined by 


y= 4,115 Ao = 4g = 40,11 = 41,10 = 2 








176 J. H. WILKINSON: 


and otherwise ; 
a;, =0 ‘= 


=3 |t-—k| = 
=4 |¢—k| =2 
=1 |¢-—k| = 
=0 |i—k| =3. 


The roots obtained are given below and apart from the double root they are 
correct to within one or two units in the last figure quoted. The double root 
A=4. 

Calculated roots of Rutishauser’s matrix 
Jy = 0.5222822874 61372 56 


Ay = 1.8038475772933680 
As 3.17157 28752 538100 
j, and A; 4.00000 00000 00000 0 ++ 0.00000 00001 38283 48 


loi we il 


ls 4.12924 84841 89093 1 
dy 4.40664 99006 731521 


Ag = 5.9999999999 999999 
Ag = 8.8284271247461900 
Ayo = 12.1961 5 24227 06632 


Jy = 14.94181 93276 76382 


has its real part exact and an imaginary part of order 101°. The roots were found 
by Barrstow’s process and the quadratic factor corresponding to this double 
root was 


x? — (8 + 2°55 4...) x + (16 + 2°84...) 


with errors in the 16th decimal. The roots were found in 65 seconds. 


Since these two matrices are symmetric we would not, as standard practice, 
resort to the use of the characteristic equation for their solution. The methods 
described in this paper have in fact been used almost exclusively for unsymmetric 
matrices and most commonly on matrices having complex roots. It is interest- 
ing to note that the latter have generally given rise to surprisingly well-conditioned 
polynomials and frequently the use of the high accuracy section of the root 
finding programme has been superfluous. This may well be a comment on the 
physical problems from which the matrices have arisen, which have mainly been 
damped mechanical and electrical systems. However, it is perhaps worth men- 
tioning that if we construct polynomials of order » by multiplying together 
n factors (z—z;) where z; are random complex numbers lying in the unit circle, 
then such polynomials will, in general, be better conditioned than polynomials 
obtained by multiplying » factors (z—.x;) where x; are real numbers between 
—1 and +1. Frequently problems with complex eigenvalues have given poly- 
nomials which were almost as well-conditioned as (*"-+ 1) and for such poly- 
nomials the roots have been found to a quite unreasonably high precision, though 
not, of course, the eigenvalues of the original matrix. This experience suggests 
that we might be able to use the above methods successfully on matrices of much 
higher order than 30. 

Examples of unsymmetric matrices whicii are not special or of low order are 
not common in existing literature. The following results were obtained from 
the unsymmetric matrix of order 14 given by WILKINSON [J0]. This has been 





Evaluation of zeros of polynomials. II 177 


chosen because it has been used by a number of experimenters as a test matrix. 
(There is an error in the published matrix; a,, should be + 157473 instead of 
+ 235576.) The eigenvalues obtained are given below. They are correct to all 
figures quoted. 


A, = 48 30173.7825569 Ag = 257610.1137341 


Ay = 1593256.26906 74 Ay = 173583.96442 35 
A; = 1296443.0655606 Ay = 151487.86257 31 
A,= 976580.14251 70 Ay = 73704.10596 13 
As = 517836.3432921 Ayo = 43991.21867 89 
Ag = 369921.50583 38 As = 3586.8343743 
Az = 308200.9577651 Aiy= —605.1663382 


Most of the eigenvalues obtained were correct to more figures than given here 
and again the accuracy was limited by the Lanczos transformation rather than 
by the root finding programme. 


10. Zeros of other polynomial expressions 


Throughout this paper we have used the algebraic eigenvalue problem to 
illustrate that the method of calculating a function is as important as the nature 
of the function itself. The function defined by |A —AJ| and the characteristic 
polynomial are identical mathematical functions but for computational purposes 
they are very different. It is important to realise that many polynomial ex- 
pressions, not necessarily of determinantal form, enable us to evaluate more 
accurately the function which they represent than the corresponding explicit 
polynomial. 

The examples taken from OLVER’s paper provide one instance of this. These 
polynomial equations are the explicit expansions of the equations 





f(x) = Ax (ax® + 1)"~'sinh  p cosech p + (ax? + 1)" cosh n p = 0 
where 
cosh p = (ax® + 1) 1{(a + 3) x2 + 1} (64) 


for 7 =8, a=10, A=1 and m=8, a=0.1, A=1 respectively. When expanded 
as polynomial equations, the second of these required computation with (& + 9) 
significant decimals to give k decimals in the roots, 9 decimals being lost in the 
evaluation. The function /(*«) may however be evaluated in the following steps. 
For a given value of x equation (64) gives 


e? +e? —2(a 4+ $x? + 1)/(ax? + 1) (65) 


from which e? may be calculated as the root of a quadratic equation. /(*) may 
then be evaluated from the relation 





ee © n—1l (np np 2) n er Po np 
f(x) a Ax(ax*+1) (¢ é ) 1 (aa 1)” ( ) (66) 


f—e? 2 


Using the Miiller technique and this method of evaluation, all zeros may be found 
correct to at least 7 significant decimals using only 9 significant figures. Never- 
theless the treble precision Bairstow programme used on the explicit polynomial 
was found to be faster. 








178 J. H. Wivkrinson: 


As a second example we give a polynomial expression which arose in filter 
design. The zeros were required of the function /(x) defined by 


7 6 
= I] (x?+A,x+B)—k IT + C,)?. (67) 


A, = 2.008402247 
A, = 1.97422 5110 
Ay = 1.87266 1356 
A,= 1.714140938 
A, = 1.583160527 
Ag = 1.512571776 


B, = 1.008426206 
B, = 0.97490 50168 
B, = 0.87910 58345 
B, = 0.73758 10928 
ry = 0.62794 19845 
= 0.57223 02977 


C, = 0.000000000 
Cy = 0.7015884551 
apie = 0.6711668301 
C, = 0.5892018711 
C, = 1.08475 5941 
Cy = 1.03235 9024 


A, = 1.485030592 x = 0.55133 24340 k = 1.380 x 10°8 


The explicit polynomial /(x) is so ill-conditioned that the double-precision Bair- 
stow programme gave only 2 correct figures in several of the factors and the 
use of the treble-precision section was essential. Using the Miiller programme 
and evaluating /(x) directly from equation (67), 6 to 9 correct figures were 
obtained in all roots using only 9 figure computation. Again the high accuracy 
Bairstow programme was faster. (Note that it was essential to calculate the 
explicit polynomial to treble precision.) Inspection of equation (67) leads one 
to expect that there will be a number of roots of /(x) =0 in the neighbourhood 
of x =—1.0. The transformation y =x -+1.0 may be carried out quite simply 
without introducing rounding errors and the explicit polynomial in y is far 
better conditioned than that in x. The precise transformation that is used is 
not very critical and y=(x-+a) where a takes any value between 0.7 and 1.0 
gives a much better conditioned polynomial than the original. Accurate roots 
of f(x) are given below. 
— 0.74288 48031 95285 + 0.0001 3 26388 68266 7 
- 0.75658 24694 21735 + 0.01540 39676 31333 2 
— 0.7919407188 69238 + 0.03547 17973 46616 7 
— 0.85722 5672019507 + 0.05324 85104 63314 7 
— 0.93599 91053 52785 + 0.04738 58249 55211 7 
- 0.98668 7846929056 + 0.02175 19878 55196 2% 
— 1.00377 5657212394 + 0.00129 25690795 56 i 


They do not, at first sight, appear to be very formidable. The transformation 
y = x +0.85 is seen to be the most promising and did in fact produce a moderately 
well-conditioned polynomial. 

An error analysis of the evaluation of polynomials defined by several different 
algorithms has been carried out by the author [7] and the explicit polynomial 
expression has proved to be by far the poorest of those examined. 

Whenever numbers are calculated as the zeros of polynomials the possibility 
of a poor determination must always be borne in mind and this is true even when 
we find the roots of a quadratic equation. Now in the Bairstow and Miiller pro- 
grammes there is one point at which a quadratic equation has to be solved. In 
Bairstow’s method this occurs at the very last stage when the zeros are found 
from the quadratic factors. If a quadratic factor has almost coincident roots then 
considerable accuracy is lost at this stage. If, for example, we find the zeros of 
the expanded polynomial 


(x — a)? (x — b) (x —c) 





Evaluation of zeros of polynomials. II 179 


using BAIRSTOW’s method, then provided the initial approximation is such that 
(x — a)? is found as a factor, there will be no sign of ill-conditioning at this stage. 
However, if we accept as a factor 


x* — (2a + 6,) x + (a? + 6,) 


the roots obtained will have errors of the order of magnitude of (6, — 6,)~*. Errors 
in the tenth figure of the quadratic factor will give errors in the fifth figure of 
the roots. If, however, the initial approximation is such that (x —a) (x — b) 
arises as a factor then the characteristic signs of ill-conditioning will be apparent 
at this stage. When working with explicit polynomial expressions nothing is 
lost by using BArRsTow’s method since close or coincident roots will inevitably 
lead to a loss of accuracy. However, it is easy to develop analogues of Batr- 
sTow’s type for finding real quadratic factors of other polynomial expressions 
such as co-diagonal forms. An error analysis [7] has shown that the quadratic 
factors of a co-diagonal form are well determined by the natural analogue of 
Bairstow’s method. If, however, the co-diagonal form has very close zeros 
then accuracy may well be lost at the final stage. If on the other hand the zeros 
are found by NEwTon’s method, calculating both the function and its derivative 
directly from the co-diagonal form, there is no such loss of accuracy. Extensions 
of BaIRsTow’s method are in this respect somewhat unsatisfactory. 

In MULLER’s method the quadratic equation (56) is solved in order to deter- 
mine the two values of 4. For close, or coincident roots this gives a poor deter- 
mination and we might expect that MULLER’s method would be open to the 
same criticism as BAIRsTow’s. However this is not so. If the generalised MUL- 
LER’S programme is used to find the zeros of (z— a)? for example, the function 
being evaluated directly from this expression, then the rounding errors will 
prevent the exact zero, z =a, being obtained in one step. Nevertheless, the 
process does ultimately converge to z =a to full working accuracy. The single 
Miiller programme was used to find the eigenvalues of the symmetric co-diagonal 
matrix, A, of order 21 with 


This has eigenvalues with pathologically poor separation. In fact to 10 decimal 
places 
’ Ay = Ag = 10.74619 41829 
As = 9.2106786474 
Ay = 9.21067 8647} 


so that for single precision working on DEUCE, A has virtually two pairs of 
coincident roots. The use of the generalised single precision Miiller programme gave 
Ay = Ao = 10.74619 418 
A, = 9.21067 864 


with a maximum error of 1 in the last figure of the computation. Convergence 
to the first of each of these pairs was slow but this was largely compensated by 





180 





J. H. Witkinson: Evaluation of zeros of polynomials. II 


the fact that the second of each pair was found almost immediately since at this 
stage the function we were evaluating no longer had a double root and the previcus 
root was used as a first approximation. 


Acknowledgment. The work described above has been carried out as part of the 
research programme of the National Physical Laboratory and is published by permission 
of the Director of the Laboratory. 


[1] 
[2] 
[3] 
[4] 
[5] 
[6] 
(7] 
[8] 
[9] 
{10} 


References 


Bairstow, L.: Rep. Memor. Adv. Comm. Aero., London 154, 51—63 (1914). 
Lanczos, C.: An iterative method for the solution of the eigenvalue problem of 
_ linear differential and integral operators. J. Res. Nat. Bur. Standards 45, 

255—282 (1950). 

OLVER, F.W.J.: Evaluation of zeros of high degree polynomials. Phil. Trans. 
Roy. Soc. 244, No. 885, 385—415 (1952). 

MU ter, D.: A method for solving algebraic equations using an automatic 
computer. Math. Tab., Wash. 10, 208—215 (1956). 

WILKINSON, J.H.: The calculation of eigenvectors by the method of Lanczos. 
Computer J. 1, 148—152 (1958). 

WILKINSON, J.H.: The stability of method of reduction of a matrix to almost- 
triangular and triangular forms by similarity transformation. To be published 
in J. Assoc. Comp. Mach. (1959). 

WIvkinson, J.H.: Error analysis of algebraic processes. (In preparation.) 

Brooker, R.A., and F.H. SuMNER: The method of Lanczos for calculating the 
characteristic roots and vectors of a real symmetric matrix. Proc. I.E.E. 103, 
Part B, Suppl. no. 1, 114 (1956). 

RUTISHAUSER, H.: Solution of the eigenvalue problem with the L.R-transforma- 
tion. National Bureau of Standards, applied Mathematics Series 49 (1958). 

Witkinson, J.H.: The calculation of the latent roots and vectors of matrices 
on the pilot model of the A.C.E. Proc. Camb. Phil. Soc. 50, 536— 566 (1954). 


Mathematics Division, 
National Physical Laboratory, 
Teddington, Middlesex 


(Received May 6, 1959) 





Numerische Mathematik 1, 181—185 (1959) 


Eine Fehlerabschatzung fiir gewisse selbstadjungierte, 
gewohnliche Randwertaufgaben 


Von 


G. BERTRAM 


In [5] hat TATARKIEWICz fiir die Anwendung des Ritzschen Verfahrens auf 
spezielle lineare gewdhnliche selbstadjungierte Randwertaufgaben 2. Ordnung 
eine Fehlerabschatzung angegeben, die sich als Spezialfall eines allgemeineren 
Fehlerprinzips auffassen laBt: [7] (vgl. auch [2] und [3]). Hier soll dieses Prinzip 
unabhangig vom Ritzschen Verfahren auf die folgende Klasse von Randwert- 
aufgaben angewendet werden: 


(1) Ly] =3 (= 1)" (Pale (m= 72) ("=y), 


(2) y) (a) =y™(b)=0 (u=0,14,...,m—4). 


Die #,(x) seien im Integrationsintervall aS x6 reell, nicht negativ und mit 
ihren Ableitungen bis zur w-ten Ordnung einschlieBlich stetig, ebenso sei r(x) 
dort reell und stetig. Insbesondere sei #,,(x)=>p>0 fiir aSxb. 

Die Randwertaufgabe besitze eindeutig die Lésung u(x). 

Unter Verwendung eines beliebigen Naherungsverfahrens (Ritzsches Verfah- 
ren, Kollokation, Differenzenverfahren, Iteration usw.) habe man eine Naherungs- 
lésung v(x) bestimmt. Sie sei stetig mit ihren Ableitungen bis zur 2m-ten Ordnung 
einschlieBlich und erfiille die Randbedingungen (2). Es interessiert eine Ab- 


schatzung des maximalen Fehlerbetrages (f =v — u) 
# 


(3) - = Max | v (x) = u(x)| 


fiir den Fall |/|,,,,>0. Wir setzen 


u—vU 





(4) welt mit mae) lent 
Offenbar ist 

f{Lfu) —r\idx =f {tp + |flmax*2] —7}%dx =0 
oder ’ i 





h 
4 J {L[v] — r}2 dx 
(5) [flmax == b 
J L(z]- 





he 


ax 








182 G. BERTRAM: 


Da y-fache Teilintegration des x-ten Nennergliedes (u =1,..., m) mit Riicksicht 
auf (2) 


b 
(6) I *(p,° Fy), dx -/ S ( 1) te Z(0) (p,- 2) + |, [2 dx 


= Sp. z dx =0 


ergibt, kann der Nenner nur =0 sein. 

Nun méoge z(x) die Menge Z aller Funktionen reprasentieren, fiir die in 
a<x<b iiberall |z|<1 ist; der Maximalwert |z|,,,,=1 werde fiir x =c erreicht 
(aScSb). Falls mehrere solche Stellen vorliegen, denke man sich eine heraus- 
gegriffen. z(x) soll ferner die Randbedingungen (2) erfiillen, in aS xb stetig 
sein und fiir aS x<c sowie cl xb stetige Ableitungen bis zur 2m-ten Ordnung 
einschlieBlich besitzen. Dabei brauchen die links- bzw. rechtsseitigen Ableitungen 
fiir x =c nicht notwendig gleich zu sein. 


Da z €Z ist, 1aBt sich (5) weiter abschatzen zu 


b 
(7) [flax Sy SJ |E[v] — r| dx 
mit 
b bm 
N= inf fL{z]-zdx= inf f)D'p,-[2]*dx 
|2|max=1 g |2imax=1 g u=0 
b c b 
> inl pb: fe Pax = inf p {fle ax +f (eyed. 


b—-x 


> or (c + 6) im zweiten 


-- = (c + a) im ersten und ¢ = 








Substitution von t= ~ 


Integral ergibt mit z(x) =s(¢) 
1 
(8) N= inf p+ ps ste=T + “a sre} J [stm (t)]2d¢. 


|2|max=1 





Darin reprasentiere s(?) die Menge S aller stetigen Funktionen, die in 0S/<1 
stetige Ableitungen bis zur 2m-ten Ordnung einschlieBlich besitzen und den 
Randbedingungen geniigen 
s“(0)=0 (u=0,1,...,m—1) 

s(1) =1. 


(Wegen der Quadrierung des Integranden eriibrigt sich die Betrachtung des 
Falles s(4) = —1; durch Fortlassung der Bedingung |s|<1 kann das Minimum 
allenfalls verkleinert werden.) 

Minimisierung der geschweiften Klammer beziiglich c liefert c =$(a+6), also 


(10) {}= =— er 


Die weitere Abschatzung geschieht durch Lésung des Variationsproblems 


(9) 


(11) fis (‘)|?dt=Min!, s()<S 





Fehlerabschatzung fiir selbstadjungierte, gew6hnliche Randwertaufgaben 183 
Jede etwa vorhandene Lésung sy (¢) erfiillt fiir m= 2,3, ... dann noch die m —1 
natiirlichen Randbedingungen 
(12) sf)(4)=0 (u=m, m+414,...,2m — 2). 


Die Eulersche Differentialgleichung s®”)—0 hat mit Riicksicht auf die Rand- 
bedingungen an der Stelle ¢=0 die Lésung 








a a rs 
(13) so(#) Pe (m + uw — 1)! 
Die Anpassung an der Stelle ¢=1 fiihrt auf das lineare Gleichungssystem 
5 1 (mm) - 
(14) 2 Tre aT =1 (m=1,2,...) 


— : aS” = 0 (o =1,...,.m—1 nur fiir m = 2, pese)s 


uno (4#— @)! 


Es hat die Lésung 
Di” 






































(45) an” = Sa (ue =1,..., m) 
mit 
py oe ! 
a. = a (m—pw—1)! (m—yp)! 
‘a Se ae 1 1 
1! 21 (m—p—2)! (m—n—1)! 
Di) —(—4)"*1 : , , ‘ (u=1,...,m -- 1) 
“4! (m—p—3)! (m—p—-2)! 
0 0 0 1 im 
1! 
De = (— 1)" 
oder ausgewertet und zusammengefaBt 
os 1 eee = 
(16) DS” = poe (u =1, 2,..., m) 
und  - 1 1 i 1 1 
m! (m+1)!  (m+2)! (2m — 2)! (2m—1)! 
1 = a L ve L L 
' 1! 2! (m — 2)! (m — 1)! 
(17) DP" a 4 ‘ P 
0 0 0 ose 1 
1! 
_F __ 4\rtl 1 o- 
=2( 1) ee Ss al (ws = 4, 2, ...) 


1 
~(2m—1) [(m—1) 1]? 





13* 








184 G. BERTRAM: 


Durch Einfiihrung der Funktionen s,=s, ss=$,=§, .--, Sy =Sm y= 5") 1aBt sich 
das Problem (11) als Lagrange-Problem schreiben und mit den Multiplikatoren 
A, (t), «-+ Am —1(¢) auf die Minimisierung des Integrals tiber 


m—1 
(18) & + dA, (S, = Sut 1) 
p= 


zuriickfiihren. Dann laBt sich die gesamte klassische Theorie des Lagrange- 
Problems durchfiihren (vgl. dazu [4], Kap. 11 und 12). Insbesondere findet man 
fiir die WeierstraBsche €-Funktion € =(p,,—p,,)?, und man kann schlieBen, daB 
So(t) fiir das Integral (11) ein starkes eigentliches Minimum liefert. Mit 





ft (m) (4)]2 q f Sp u-l "4 F al) 
19 s™ (1) ]2 dt = — 4 t | , =F) 
( ) é 0 (t) | é i, u-l u-l oe = 1)! 
ee 5 OS 
u=lo=1 tad w=m4+1 o=yu—m+1 u 


= (2m — 1) [(m — 1)!]? 
(m = 2,3,...; fiir m=1 ist die 2. Summe leer) 


erhalten wir die Abschatzung 
b 


“ (b — a)27'-1 o 
- NS Sema tom ivan fle] — la. 





Fiir die ersten m errechnet man 








m (2m—1) [(m—1)! 2™]2 
1 4 
2 48 
3 1280 
4 64512 
5 5308416 





Die Konvergenz einer Folge von Naherungen im Sinne des durch das Integral 
b 


J | Defekt| dx 


gegebenen ,,Abstandes“ zieht also die gleichmaBige Konvergenz der Naherungen 
gegen die Lésung nach sich. 
Beispiel. Die Randwertaufgabe 


(21) “PF +¥=s, 2G) 70) =6 
besitzt die strenge Lésung 

> —» Sine 
(22) u(x) =x re 


Teilt man das Intervall OS x<1 in m Teile der Maschenweite h = (9 = 2, 3, ...), 


dann lassen sich Naherungswerte v, (y=0,1,...,) fiir die u(v-h) aus den 
Differenzengleichungen 





ip) eet he ayd, Henn d &4,...,.0—4) 


h2 





Fehlerabschatzung fiir selbstadjungierte, gewéhnliche Randwertaufgaben 185 


ermitteln. Fiir »=3 findet man so mit vs=v,=0 





~~ 840 
47 


vg =~ = 0,055 952. 


Sill v, = 37 = 0,044047 
840 


— 270, + 57¥,=2 


Interpolation der v, nach LAGRANGE ergibt als Naherungslésung 









































9 
24 nn s_ 3). 
(24) v(x) 560 (9x+% 10 x3) 
Aus (20) erhalten wir mit p=1 bei graphischer Auswertung des Integrals 
1 
9 61 
2 < PO coe 
(25) ie so | 10x3 — x ye t2 dx < 0,003 938 
0 a 
& (x) 
x g(x) 
0 2 *; 
0,2 0,684 ... 
0,4 — 0,231 vr 
0,6 — 0,266... 
0,8 1,057... 
1 4,222... 
Insbesondere ist 
” 1 
x u(x) v(x) f(x) , S lel ax < 0,98 
3 |0,044444]0,044047] — 0,000397 = —9 
2 0,056448 0,055952 — 0,000499 Fig. 1. Verlauf von 3 oo 











Die Fehler von v, bzw. vg werden also dem Betrage nach etwa 10- bzw. 8fach 
iiberschatzt. Fiir x =0,8 findet man eine 6,8fache Uberschatzung. 


Literatur 


[1] Bertram, G.: Ein Fehlerabschatzungsprinzip fiir Operatorengleichungen. (In 
Vorbereitung.) ’ 

[2] BertTRAM, G.: Verscharfung einer Fehlerabschaétzung zum Ritz-Galerkinschen 
Verfahren von Krytorr fiir Randwertaufgaben. Numer. Math. 1, 135—141 
(1959). 

[3] Bertram, G.: Defektabschatzungen und ,,Linear Programming‘’. (In Vorbe- 
reitung.) 

[4] Boxza, O.: Vorlesungen iiber Variationsrechnung. Leipzig 1949. 

[5] TATARKIEWICcz, K.: Une méthode d’estimation de l’erreur dans le procédé de 
Ritz. Ann. Polon. Math. 1, 346—359 (1955). 


Institut fiir Angewandte Mathematik 
der Universitat Hamburg 


(Eingegangen am 9. April 1959) 








Numerische Mathematik 1, 186—202 (1959) 


Uber die Differenzapproximation hoher Genauigkeit 
bei Anfangswertproblemen fiir partielle 
Differentialgleichungen* 


Von 


HEINZ-OTTO KREISS 


1, Einleitung 


In einer friiheren Arbeit des Verfassers (KREISS [5]) wurde gezeigt, wie man 
zu allgemeinen Systemen von linearen partiellen Differentialgleichungen m-ter 


Ordnung 
ou(x,t 7) 
Puls) — P(x, t, =) u(x,t) =Fl(x,t (4) 
u(x, 0) =f (x) 
fiir die das Cauchy-Problem in einem Zeitintervall (0, JT) richtig gestellt ist, 
stabile Scharen von Differenzengleichungen 


u(x,t+k,k) — (I+A4Q(x,t,h)) u(x,t, k) = kF (x,t) (2) 
u(x, 0, k) = f(x) 
konstruieren kann, deren Lésungen u(x, ¢, k) fiir k gegen 0 gegen die Lésung 


u(x,t) des Systems (1) konvergieren. In der zitierten Arbeit ist der lokale Fehler 
proportional k*, d.h. fiir jede hinreichend oft differenzierbare Funktion v gilt 


{otet+ hole.) _ 4 O(x,4,n) 0} — {2% — P(x,42\o}—008). 6) 


Nun liegt « immer zwischen Null und Eins. Es ist also, im Vergleich mit ent- 
sprechenden Methoden fiir gewéhnliche Differentialgleichungen, die Ordnung « 
des lokalen Fehlers relativ klein. 





In dieser Arbeit soll nun gezeigt werden, wie man zu Systemen von partiellen 
Differentialgleichungen (1) stabile Scharen von Differenzengleichungen kon- 
struieren kann, fiir die die Ordnung « des lokalen Fehlers beliebig gro8 ist. 
Allerdings beschranken wir unsere Untersuchungen hauptsachlich auf paraboli- 
sche Systeme und symmetrische Systeme erster Ordnung, um die Untersuchungen 
so einfach wie méglich zu gestalten. Zur Konstruktion solcher Scharen betrachten 
wir Systeme von Differenzengleichungen der Form 


u(x,t+k,k) — u(x,t, k) — y AQ, u(x,t —pwkh,k) =kG(x,t, k), (4) 
1 


_ 


wobei die AQ, geeignete Differenzenoperatoren sind. 





* Diese Arbeit hat der Verfasser als Stipendiat des schwedischen technischen 
Forschungsrats geschrieben. 





Uber die Differenzapproximation hoher Genauigkeit 187 


Rein algebraisch macht es keine Schwierigkeiten Scharen (4) anzugeben, fiir 
die die Ordnung des lokalen Fehlers beliebig groB ist. Die Gleichungen, die man 
so erhalt, sind aber im allgemeinen nicht stabil. Nach P. D. LAx und R.D. 
RICHTMYER [7] ist, unter gewissen Regularitatsvoraussetzungen iiber die Lésungen 
des Differentialgleichungssystems (1), die in unseren Untersuchungen immer 
erfiillt sind, die Stabilitat die notwendige und hinreichende Bedingung dafiir, 
daB die Lésungen der Differenzengleichungen gegen die Lésungen der Differen- 
tialgleichungen konvergieren. Daher sind im allgemeinen nur stabile Scharen 
von Differenzengleichungen zur approximativen Lésung von Differentialglei- 
chungen geeignet. Aus der praktischen Erfahrung ergibt sich das gleiche. Es 
muB also dafiir gesorgt werden, daB die konstruierten Scharen stabil sind*. 

Wir fiihren in dieser Arbeit keine eingehenden Fehlerabschatzungen durch. 
Es sei aber darauf hingewiesen, daB man Satz 3 und die Ergebnisse der Stabili- 
tatsuntersuchungen (wenigstens im Prinzip) zu Fehlerabschétzungen verwenden 
kann, die nur von den Anfangswerten und den Koeffizienten der Differential- 
gleichungen und der Differenzengleichungen abhangen. (Vergleiche hier auch 
DAHLQUIST [3].) 


2. Bezeichnungen und Voraussetzungen 


Wir betrachten im folgenden das Anfangswertproblem (1) in einem festen 
Zeitintervall (0, 7). Weiter nehmen wir an, daB alle vorkommenden Vektor- 
funktionen u(x, t) = (u(x, t), ..., Uy, (%, t))* fiir jedes feste € (0, T) beziiglich des 
reellen s dimensionalen Raumes R,(x) =R,(x,,..., *,) quadratisch integrierbar 
sind, d.h. €ZL,. Dann werden durch 


(u,v) = fu*¥-vdx=f Sa,0,dx; |||] = + \/(u, 2) 
R, 


R, t=1 


das Skalarprodukt und die Norm definiert. 

Wir sagen, daB u(x, t)€ G,, falls wu fiir jedes feste ¢€ (0, 7) v-mal nach allen 
x; im Sinne der L,-Norm stark differenzierbar ist und uw und alle diese Ablei- 
tungen € L, und deren Normen gleichmaBig beziiglich ¢ beschrankt sind. 

Wir sagen weiter, daB eine Matrix A(x, t) € C,, falls ihre Koeffizienten a; ; (x, t) 
in jedem Punkt (x, ¢) y-mal nach ¢ und allen x; im gewéhnlichen Sinne differen- 
zierbar sind und alle diese Ableitungen gleichmaBig in der Maximumnorm be- 
schrankt sind. 

Ist schlieBlich A ein beschrankter Operator €L, (wie z.B. die Matrizen € Cy 
fiir jedes feste ¢), so wird mit A* der zu A adjungierte Operator und mit 


|| 4 I] = sup || 4 a| 
lull = 


die Norm von A bezeichnet. 





* Seit der grundlegenden Arbeit von CouRANT, FrRreEpRICHS und Lewy haben sich 
eine groBe Anzahl von Autoren mit der Konstruktion stabiler Systeme von Differenzen- 
gleichungen beschaftigt, die Systemen von partiellen Differentialgleichungen zuge- 
ordnet sind. (Ausfiihrliche Literaturhinweise findet man z.B. bei R. D. Ricurt- 
MYER [8].) Soweit es dem Verfasser bekannt ist, handelt es sich bei diesen Arbeiten 
entweder um Differentialgleichungen mit konstanten Koeffizienten, oder um ziemlich 
spezielle Differentialgleichungen, wobei auBerdem die Ordnung « des lokalen Fehlers 
ziemlich klein ist. 





188 He1nz-Otto KREIss: 


Mit 4;(2h) bezeichnen wir die zentralen Differenzenoperatoren 
A; (2h) u=%- {u(x + he) — u(x —he,)}, (5) 


wobei e; der j-te Einheitsvektor ist. 
Der Einfachheit halber nehmen wir die Differenzenoperatoren in Gl. (4) 
immer als-endliche Summe der Form 
AQ,=4 Yh Dall (x,t) - Aj, (2h)... Aj, (2h) + ko” (x,t) (6) 


y+tT SM jy... Jy 
tT >0 


an, wobei 

a) die 7; natiirliche Zahlen mit 1<7;Ss und 

b) die al” , (x, t) und 6 (x, t) Matrizen der Ordnung sind, und 

c) das Verhaltnis zwischen Zeitschritt k und der m-ten Potenz der Gitter- 
konstanten / konstant gleich A ist, d.h. 


k-h~-™ =A =konst. 


3. Stabilitat 


Es sei im folgenden A immer so klein gewahlt, daB (I—AQ_,)* fiir alle 
t€(0, T) und alle k existiert und gleichmaBig beschrankt ist. Dann kann man 
(4) nach u(x, t+-k, k) auflésen und erhalt 


u(x,t-+k, k) = > 0, u(x,t+ uk, k) + RG, (7) 
1=0 
wobei 
ates (I—AQ_,)7(1+4Q,) fir w=0 
_ A(I—AQ_4)7Q, fiir uw +0 
und 


~ 


G =(I—AQ_,)2-G 


ist. Wir benutzen die Stabilitatsdefinition in der Form von R. D. RICHTMYER [8] 
und betrachten zunachst homogene Scharen von Differenzengleichungen 1. Ord- 


nung, d.h. Scharen 
u(x,t+k,k) = 0, u(x, t, Rk). (8) 


Als Anfangswerte zu einem beliebigen Zeitpunkt ¢ mit O0<¢ =vk< T,» 0 (mod1), 
lassen wir alle in L, vorkommenden Funktionen zu. Dann nennen wir (8) beziig- 
lich L, und beziiglich des Intervalls (0, 7) stabil, falls es eine im Intervall (0, 7) 
beschrankte Funktion g(t) gibt, so daB fiir alle &, fiir alle ¢,, ¢, mit 


OSt,=ykSt=7,kST; v¥;=0(mod1) 
und fiir alle durch (8) bestimmten Funktionen w(x, ¢, k) gilt: 
Ive, te, || < plle— A) [lees tA). (9 


g(t) nennen wir im folgenden auch Stabilitatsfunktion. 


Inhomogene Scharen 


u(x,t+k,k) = 0,: u(x,t,k) +k G (10) 








Uber die Differenzapproximation hoher Genauigkeit 189 


nennen wir stabil, falls die zugeordnete homogene Schar es ist. Diese Definition 
fiir inhomogene Scharen ist verniinftig, da wir die Lésungen der inhomogenen 
Scharen mit Hilfe der Lésungen der homogenen Scharen abschatzen kénnen. 
Genauso wie in der erwahnten Arbeit des Verfassers [5] beweist man namlich: 

Satz 1. Ist die Schar (10) stabil und g(t) die Stabilitatsfunktion, so gilt fiir 


deren Lésungen 
ty—ty)/[k 


||« (x,t, 2) || Sle (tg —h)- || (x, 4»)|| + sup I|Gl|- h: 2 P (te —t,—(j—1)k). 


Dort haben wir auch folgenden Satz bewiesen: 
Satz 2. Ist (8) stabil, so auch 


u(x,t+hk,k) = {Qot+ kB} u(x,t, k), 
wenn B ein beziiglich ¢ gleichmaBig beschrankter Operator € L, ist. 


Eine allgemeinere Schar von Differenzengleichungen (7) schreiben wir auf die 
tibliche Weise als Schar 1. Ordnung, und nennen sie stabil, wenn die letztere es 
ist. Der Hilbert-Raum H’ bestehe aus allen Funktionen “4 =(u,, ..., u,)*, wobei 
alle u;€ L, sind. In ihm werde das Skalarprodukt und die Norm durch 


(@, 8) =D (w nd; (eB = Ella 
definiert. Fiihrt man jetzt die Funktion % (x, t, k) = (u(x, t, k),..., u(x, t—rk, k))* 
ein, so kann man (7) in der Form 
ti(x,t+k,k) =Q,a(x,t,k) +kG (11) 
schreiben, wobei 


dS 

° 

oO 
D 


O= I 0 und G= ' 
Pe ea SG 0 
0...010 


sind. Die Stabilitat von (11) wird dann auf entsprechende Weise wie fiir (8) 
definiert. 

Kennt man die Stabilitatsfunktion von (11) und den lokalen Fehler, so kann 
man Satz 1 benutzen, um die Abweichung der Lésungen von (11) von der Lésung 
des entsprechenden Differentialgleichungssystems abzuschatzen. (Vgl. diesen 
Satz auch mit dem ,,Equivalence Theorem“ von P. D. LAx und R. D. RIcHT- 
MYER {7].) 

Satz 3. Es sei u(x, ¢) eine Lésung des Systems von Differentialgleichungen 
(4) und u(x, ¢, k) eine Lésung einer zugeordneten stabilen Schar von Differenzen- 
gleichungen (4) mit den Anfangswerten 


u(x,tk,k) =u(x,tk) +¢=0,1,...,7—1. 
Setzt man (x, ¢) in (4) ein, so sei 


u(x,t+k) — u(x,t) — va Q,,u(x,t—ek) =kG(x, t,k) + k*** e(x,t,k). (12) 


n= 





190 HEINZ-OTTO KREIss: 
Ist dann g(¢) die Stabilitatsfunktion der Schar (11), so gilt fiir ¢=0 (mod h) 


t/k 
||% (x, t, k) — a(x, 4)||, = sup |] (x, ¢, A) ||, **- DU p(t— (7 —1) A), 
ostst j=1 
wobei 
&(x, t,k) = ((I—AQ_,)+- €(x,t, k), 0, ..., 0) * 
ist. 

Beweis. Bildet man eine Schar fiir «(x, t)—u(x,t,k) indem man (4) von 
(12) subtrahiert, so folgt der Satz unmittelbar aus Satz 1*. 

Die Berechnung des lokalen Fehlers ist von algebraischer Natur. Kennt man 
Abschatzungen fiir die Ableitungen der Lésungen des Differentialgleichungs- 
systems, so braucht man nur TAYLORs Formel anzuwenden. Alle effektiven Fehler- 
abschatzungen hangen daher von der genauen Bestimmung der Stabilitats- 
funktion ab. 


4. Drei Hilfssatze 
Wir geben in diesem Abschnitt drei Hilfssaétze an: 


Hilfssatz 1. Gegeben sei eine homogene Schar (4). Angenommen wir kennen 
fiir ihre Lésungen eine Abschatzung 


I|« (x, ¢+ k, k) ||P |] (x, 4, 2) ||? — 
_ {F (u(x,t, &),) — y a,F (u(x,t —vhk,k),t—vk) 


v=—1 


(13) 
\, 


wobei: 
a) F(u, ?t) ein skalarer Ausdruck in uw und den zentralen Differenzen von u 
ist, fiir den eine Konstante D existiert, so daB fiir alle w€ L, und alle ¢: 


Fw,t)20;  ||Fw,1)|| <DIlulp 
b) / eine feste natiirliche Zahl ist, alle «,=0 sind, >}a,<1 und Da_,<1 ist. 
Dann ist die Schar stabil. 
Beweis. Wir setzen zur Abkiirzung u(x, vk, k) =u, und F(u,, vk) = F,. Dann 
folgt aus (13) fir /Spsn: 


n n l 
sal? — lupll? => mya 2—llasltss — 2 {5% ao} 
= = =— 


1 n l-1 i-1 
a-— > a, > (F, — F_,) S2h-at a_4F.445D- {2 llMp—»—al?-+ alle salt 


v=-1 j=p 


Also ist 
l-1 
Ia al? (1— Does) ([lep 2+ DE Ip —»—al 


und daraus folgt die Behauptung offensichtlich. 
Fiir die Beweise der nachsten beiden Hilfssétze verweisen wir auf die schon 
erwahnte Arbeit des Verfassers [5]. 





* Will man Abschatzungen in der Maximumnorm haben, so braucht man nur die 
Ableitungen von u(x, t, k) — u(x,t) geniigend hoher Ordnung in der L,-Norm abzu- 
schatzen. Solche Abschatzungen erhalt man, wenn man die Schar fiir u(x, t) — u(x, t, k) 
differenziert. 





| 
| 
i 
; 
1 
\ 
j 
i 
| 





en tel oa 


Uber die Differenzapproximation hoher Genauigkeit 191 


Hilfssatz 2. Es sei die Matrix A€C, und u,v€L,. Dann gilt: 
(u, A A, (2h) v) = — (4, (2h) u, Ayv) — h(E; (2h) u, Agr), 


wobei 
2E; (2h) u = u(x + he;) + u(x — he;) 
und 
h? @A 
A,=At+a “2t “Ox 
A,=-24. + fete Fylde +2) +A(e— 9) ae 


Hilfssatz 3. Wir sibel den Ausdruck: 


S= — Zill4F() [P+ 24” Re (P,(E) Q(4) «, A(x, t) P,(E) Q2(4) u) , 

wobei gilt: | 
a) P,(E) sind Polynome in £;(h) und £;(2/) mit konstanten Koeffizienten ; 

b) Q;(4) sind Monome in 4;(h) und 4;(2h) der Ordnung »; >0, deren Koeffi- 
zienten gleich 1 sind; 

c) » ist eine ganze Zahl =O und es gilt v+»,+7,22); 

d) A(x,?¢) ist eine Matrix €C, mit « =Max{0, p—v—»,+3, p—v— 2+ 3}. 

Dann gibt es eine Konstante 4)>0, so daB fiir alle A mit |A| <A, 

S < konst. h?? || w||? 


ist. (Fiiry=0, A = konst., ist SSO.) Die Konstante hangt dabei nur von A), den 
Abschatzungen fiir A(x, 4) und ihren Ableitungen <y-ter Ordnung und von den 
Abschatzungen fiir die Koeffizienten der Polynome P, ab. Ist speziell »>0, so 
kann man A, beliebig groB wahlen. 


5. Scharen von Differenzengleichungen die hyperbolischen Systemen von 
Differentialgleichungen zugeordnet sind 


Die im vorigen Abschnitt angegebenen Hilfssatze erlauben es nun, ein all- 
gemeines Konstruktionsprinzip fiir stabile Scharen von Differenzengleichungen 
anzugeben, die hermiteschen Systemen 1. Ordnung zugeordnet sind. 


Satz 4. Gegeben sei ein System von Differentialgleichungen 
= -> A,( eu (14) 


wobei die A, (x, ¢) hermitesche Matrizen €C,,, sind. Wir approximieren es durch 

eine Schar von Differenzengleichungen 
u(x,t+hk,k) =u(x,t,k) +4 dS Q,(P(x,t—pwh, A)) u(x,t —phk,k), (15) 

p=-1 

fiir die gilt: 

a) P(x, t, A) ist ein ungerades Polynom in den Differenzenoperatoren A; (2h), 
dessen Koeffizienten hermetisch und ganze rationale Funktionen der A, (x, ¢) sind. 
b) Die Q,, sind ungerade Polynome in P, deren Koeffizienten reelle Zahlen sind. 








192 HEINz-OTTo KREIss: 


c) Die Ordnung des lokalen Fehlers ist fiir beliebige A,(x,¢)€C,,, gréBer 
oder gleich «, wobei « eine natiirliche Zahl =1 ist. 


Dann gibt es Konstanten c;>0, so daB die Schar 
u(x, t+ bk) =(I—(— 1)? DA}? (h)) w(x, &) + 
v=1 


+ 2¥ Q,(Plx.t—ph, A) u(x,t — 1h, &), 


mit p=[(«+ 2)/2], ([x] gréBte ganze Zahl <x), fiir alle A, o stabil ist, fiir die 
die Ungleichungen 


(16) 


0<o0Sqy, 0<A<Qgo 
gelten. (Man beachte, daB auch fiir (16) die Ordnung des lokalen Fehlers = « ist.) 


Beweis. Es seier. die A, konstant. Dann gibt es eine Menge I< G,,, von 
Lésungen «(x, ¢) von (14), die fiir jedes feste ¢ dicht im Raum L, liegen und fiir 
die nach (3) 


u(x,t+h) =(I—(—14)° oS At (h at) + 
(17) 


+A y Qum(% t—wh) + k*** e(x, t, k) 
uae 


ist, wobei fiir jede Lésung € M 
e = sup ||e (x, t, k) || < 00. 
tk 
Quadriert man(17) und setzt zurAbkiirzung u (x,t) = u(x, mk) = Uy, >, QuUy—p= QO Uns 
so folgt: 


|| 4-1 ||?= ||, |]*+ I + II + III (18) 
wobei 


I=2A Re(u,, p> Qu%n—n) + » |> Qu. Hn—p|| 
= 2A Re(u,, 2 Q,. nn) = 2 Re 2 _-_ Q, Qu Mn—p)- 


I =—20 ||? (h) m,[*-+0%- iP AS? (ht) | 





*—(—1)?-2A0 Re(Qu,, 47? (h)u,) 


ist, und fiir III eine Abschatzung 
III < konst. - (|| «|| &**? « + 62 #?**?) 


gilt. Ersetzt man mit Hilfe von (17) in den auftretenden Skalarprodukten 4,,_,, 
durch u,, so kann man I auf die Form 


I =ARe(u,, Sei1%,) +AG,+1V (19) 


bringen, wobei S,,, ein Polynom in Q_,,..., Q, der Ordnung «+1 ist, dessen 
Koeffizienten nur von A abhangen, und G fiir endlich viele Skalarprodukte der 
Ordnung >« +1 * stehen, deren Koeffizienten nur von o, A und den Koeffizienten 





l 
* Die Ordnung eines Skalarproduktes (u, A [J Aj; u) ist J. 
i=1 





Uber die Differenzapproximation hoher Genauigkeit 193 


der Q,, abhangen, und fiir IV eine Abschatzung 
IV < konst. ||| -&**+?- & 


gilt. (#,, S.,,4,) kénnen wir weiter umformen und erhalten 
a+1 
Re (tty, Sa.41 Mn) =Re(u,, 2 R, (Ay, --,,) tty) + 4Ge, (20) 
v=1 


wobei R, homogene Polynome in 4;(2h) der Ordnung » sind, deren Koeffizienten 
hermitesch und ganze rationale Funktionen in den A, sind, und G, fiir eine end- 
liche Anzahl von Skalarprodukten steht, deren Ordnung >a«-+1 ist. Beachtet 
man jetzt, daB fiir die Lésungen von (14) die Energiegleichung 


|| «|| = konst. 
gilt, so folgt aus (18) 
I+1I+I1I=0. 


Da aber auBer III auch II =O(k**?) ist, so folgt aus. (19) und (20) 
a+1 
Ret, > Rj(Ay, «.-,4,) ty) = 0 (A*}). 
j=1 


Nun liegen die u, dicht in L,. Also muB fir alle u€L, und alle A, 
Re(u, R;(4,,.-.,4,)4) =0, 7=1,2,...,a. (21) 


Da auBerdem fiir jeden homogenen Differenzenoperator R(4) ungerader Ord- 
nung, dessen Koeffizienten hermitesche Matrizen sind 


Re(u, R(4) u) =0 
ist, so ist auch 
Re(u, Ry41(41,---,4,)4) =0 fiir o« =0(mod 2). (22) 


Betrachten wir jetzt die Lésungen von (16). Fiir diese gelten (18), (19) und (20), 
wenn wir III und IV gleich 0 setzen. Aus (21) und (22) folgt daher, daB I kleiner 
oder gleich einer endlichen Anzahl von Skalarprodukten der Ordnung 
= 2[(«-+2)/2] ist. Nehmen wir an, daB A und o kleiner als eine Konstante C 
sind, so existiert daher nach Hilfssatz 3 eine Konstante K, und eine natiirliche 
Zahl /, so daB- 
l $s 
ISAK, YR, R= LIA? (A) u,|P. 
pw=-1 vy=1 
Nun wollen wir II abschatzen. Da 


, 8 
| 42? (A) a, |? s sk, 
v=1 
und eine Konstante K, existiert, so daB 


2|(Q%n, L A}? (h) u,)| Ss 23 1(0.42 0 Uy» A? (h) u,)| Ss Ky pa . ‘n—p 


= — 


ist, so folgt 
II S$ (— 20+ so*)-F,+ Ack, > F__,. 
1 


aati 








194 HeEINz-Otto KRrEIss: 


Mit Hilfe dieser Ungleichungen fiir I und II erhalten wir aus (18) 


r l 
||, t il |? > ||, ||? — 20K, ~~ o* sk, ~~ ho Ky 2 —h AK, pa P-} ° 
u=-—1 


aon 
Nach Hilfssatz 1 ist daher (16) fiir alle A, ao mit 
0<AjoSC; —20+s0?+ (r+1) Ao K,+ (1+ 1)AK,S0 


stabil. Daraus folgt aber die Behauptung unmittelbar (fiir konstante A,). 


Betrachten wir jetzt den Fall, daB die A, von x (aber nicht von t) abhangen. 
Dann gilt an Stelle der Gleichungen (21) und (22) 


1) Re (u,Rj(4;,...,4,)“) =0, 71=2,4,...,2[a/2] 
und 
2) | Re(u, R;(4,,..., 4,) #)| S konst.-k||||?, 7 =1,3,..., 2[%/2] +1. 


Gleichung 1) folgt unmittelbar aus (21), da (21) fiir 7=0(mod 2) mit R;=0 
aquivalent ist. Ungleichung 2) ergibt sich aus Hilfssatz 2, wenn man mit seiner 
Hilfe R;(4,,..., 4,) auf die andere Seite des Skalarproduktes bringt. 
AuBerdem gilt fiir beliebige Differenzenoperatoren H (4 (2h)), deren Koeffi- 
zienten €C, sind, daB 
(u, A(2h) Hu) = (u,HA(2h)u)+F, mit ||F||< konst. k||x||?. 


Nimmt man daher keine Riicksicht auf Glieder proportional k||u||?, die ja 
auf die Stabilitat keinen EinfluB haben, so kann man bei der Abschatzung 
der Lésungen von (16) genauso rechnen, als ob die A, konstant waren. 

Sind schlieBlich die A, sowohl von x als auch von ¢ abhangig, so folgt nach 
Satz 2, daB (16) auch dann stabil ist, da 


E (Qn(Pest— Hh, A)) — Q, (P(e, 4))) u(x,t — nh, | 


< konst. k - x || (x,t — wk, k)||. 
Damit ist aber der Satz bewiesen. me 
Genauso wie Satz 4 beweist man den fiir die praktischen Anwendungen wich- 
tigen 
Satz 5. Es gelten die Voraussetzungen und Bezeichnungen des Satzes 4. 
Dann existieren Konstanten c;>0, so daB die Schar 


u(x,t-+h,k) =u(x,t,k) + DY (AQ,—(—1)Po d A? (h)) u(x,t — wh, hi) 
3° v=1 , 


s=—— 


fiir alle A, o stabil ist, fiir die O0<oSc, und 0<A<ocz ist. 

Wir wollen zu diesen Satzen noch einige Bemerkungen machen: Ersetzt man 
pb ={(«+2)/2] durch [(« +1)/2], so braucht man fiir die Differenzenoperatoren 
Q,, keine speziellen Voraussetzungen zu machen, sondern kann sie in der all- 
gemeinen Form (6) annehmen. Denn dann brauchen wir keine Ungleichung der 
Art (22). AuBerdem kann man dann den Satz auf alle Differentialgleichungen (1) 
mit konstanten Koeffizienten verallgemeinern, fiir die in einer geeigneten — mit 





Uber die Differenzapproximation hoher Genauigkeit 195 


der L,-Norm dquivalenten — Norm eine Energiegleichung gilt. In einer anderen 
Arbeit (KREIss [6]) haben wir bewiesen, daB dazu notwendig und hinreichend 
ist, daB die Eigenwerte der Matrizen P(iw), w =(a,,...,«@,) reell, (die man erhalt, 
wenn man in P(d/dx) die Differentialoperatoren 0/@x; durch iw; ersetzt), rein 
imaginar sind, und daB das Cauchy-Problem beziiglich L, richtig gestellt ist. 


6. Scharen von Differenzengleichungen die parabolischen Systemen von 
Differentialgleichungen zugeordnet sind 


Genauso wie im vorigen Kapitel wollen wir die speziellen Eigenschaften des 
Differentialoperators bei der Konstruktion von Differenzengleichungen ausnutzen. 
Dazu geben wir zunachst zwei Hilfssatze an. 


Hilfssatz 4. In der formalen Identitit 


hl — Y (—41)" 9944, 42"*4 (2h) f 


0%; v=0 
sind alle y.,,, positiv, und es gilt 
(29 + 1)! Yori. = 17+ 37+ 5%... (2 — 1). (23) 


Beweis. Setzt man in (23) f=e''”, so folgt, daB die y,,,, durch 


t= Dyeyy1sin? 44 


bestimmt sind. Setzt man sint=rT, so erhalten wir 


arcsint = > y,.,0°°"* 


und daraus ergibt sich die Behauptung. 


Bezeichnen wir mit D!"'(2h) die Differenzenoperatoren 


l 
Di (2h) = 4 Y (—1)’yay4149* (2h) (24) 


v=0 
so beweist man, da die y2,,,;>0 sind, genau so wie GARpDINGs Ungleichung 
(GARDING [4]}): 
Hilfssatz 5. Gegeben sei ein Differenzenoperator 
ge) — SY Ate-bl A, (x, t) (Dj! (2h))"... (DM! (2h))"; 


\y|<2m (25) 


y= {y,,....%}; |» =D»; 


dessen Koeffizienten €C,,,,, sind. Angenommen es existieren Konstanten 6,, 
62>0, so daB fiir alle w = (a, ..., w,); w; reell, alle ¢ und x fiir die Eigenwerte 
von > (A,(x,t)+A*(x, t)) wit... wo gilt: 


|»| =2m 
(—1)"%(, t, x) <(— 4, Ya?" + 6,). (26) 
v=1 ’ 
Dann gibt es Konstanten 6,, 6,>0, so daB fiir alle k, ¢ und alle w€L, 
Re(u, 9°”) u) < — é, > || 4%" (2A) «||? + 54h?” || 20 ||? (27) 
v=1 


ist. 








196 HeE1nz-Otto KreEIss: 


Beweis. Wir beweisen diesen Hilfssatz hier nur fiir den Fall, daB die A, 
konstant sind. Daraus ergibt er sich dann mit Hilfe von GARp1NGs Beweisidee fiir 
variable Koeffizienten. Wir kénnen (25) in der Form Q@”=Q@™) 4 ;Q2@"-») 
schreiben, wobei Q'”) der homogene Teil von QQ”) der Ordnung 2m ist und 
Q0"-) also ein Differenzenoperator der Art (25) der Ordnung 2m—1 ist. 
Nach Hilfssatz 3 brauchen wir den Satz nur fiir Operatoren 0°” zu zeigen. 
(Dann ist 6,=0.) Ist p(w, t) =(22)~ 2. f e-*°* u(x) dx die Fourier-Transfor- 

® 2 


& 
mierte von u(x) und setzen wir sin w;h = LX Pert sin’’**w,h so gilt: 
v= 


2Re(u, ey yf a (A,+ A*) (Df)... (DM) ud x 
Rs; +. 
= ™. [y* x *) (sin w, hy"... (sin  w, h)* pda 
R,; |»|= 


< —6,f > (sin a, h)?™|p|?do. 


R, v=1 
Da die y2,,,> 0 sind, so folgt: 
- ASE ( sin w, h)?™|p|?dw < — 4D | (sin w, A)?” | p|?dw 


R, v=1 
=— 8, 5 [140 (2) ull? 
yv=1 


und daraus ergibt sich aber die Behauptung. 


Einen Differenzenoperator (25) fiir den (26) gilt, nennen wir genauso wie den 
(25) entsprechenden Differentialoperator 


a 
P(x, t, = = ) A,(x,#) 
Ox j>| <2 v( y Oxy... ax! 





stark negativ elliptisch. Beispiele fiir solche stark negativ elliptische Differential- 
operatoren sind 


P(x, t, +z) = DA, x, t) sat Glieder niedriger Ordnung, 


wobei die A,(x,¢) positiv definite hermitesche Matrizen sind, deren Eigenwerte 
groBer oder gleich einer festen Konstante sind. 

Im folgenden Satz nutzen wir die stabilisierenden Eigenschaften der stark 
negativen elliptischen Differentialoperatoren aus. Mit Q‘?) bezeichnen wir immer 
einen Differenzenoperator der Art (25). 

Satz 6. Gegeben sei ein —— a von Differentialgleichungen 


“ = P (x, $, ay)" 
wobei P(x, t, é} ein stark negativer siashiees Differentialoperator der Ord- 


nung 2m ist. Es sei P(x, t, D! (2h)) der Differenzenoperator, den man aus 
P (x, t, i) erhalt, wenn man — durch D!(2h) ersetzt. Dann ist die Schar 
7 


u(x,t+hk,k) =(1+Ah" P(x, t, D™ (2h))) u(x, tk) + 
(28) 


+A > Q?™). u(x,t — wk, k) 


u=-l 





Uber die Differenzapproximation hoher Genauigkeit 197 


fiir alle hinreichend kleinen A stabil, wenn 


La 


x gem) — Agen 4 hQem-)) (28') 
u=-1 
ist. 
Bewets. Quadriert man (28), so erhdlt man aus (27) 


\|~ (x, 2+ k, k)||?< || u(x, t, R)?|| — 22.6, D> || A" (2A) u(x, ¢, R)||?+ 14 A211, 
v=1 
wobei 


I =2ARe(u(x,t,4), 5 Q2” u(x,t — uh, b)) 


pe =i 


ist, und II eine Menge von Skalarprodukten ist, fiir die nach Hilfssatz 3 eine 
Abschatzung 


I< K, Y (S| Ar(2h) u(x,t — wh, k) 2+ & |] (x,t — wk, &)|P) 
4w=-—1 v=1 


gilt. Dabei ist K,, genauso wie spater K,, eine von u, ¢ und & unabhangige Kon- 
stante. Mit Hilfe von (28) kann man in I u(x, t—jwhk, k) durch u(x, t, k) ersetzen 
und erhalt wegen (28’) 

I = 2A Re(u(x, t, k), (AQ?™ + hQ2"-”) w(x, t, &)) + ATI. 


Dabei steht III fiir eine Menge von Skalarprodukten, die man nach Hilfssatz 3 
durch 


2r $s 
ISK, Y (D4 (2h) u(x,t — wh, &) [P+ & llu(x,¢ — wk, &)|p) 


“4w=—1 'v=1 
abschatzen kann. Also ist 
||~ (x, ¢+ k, k) ||? |] w(x, ¢, &)||? — 22.45 Dd || A” (2h) u(x, t, R) ||? + 
j=1 
2r s 


+ 2(K,+ Ky)> D (¥|]4™ (2h) u(x,t — wh, &) 2+ & |]u(x, t — 0h, A). 
1 


4w=—1 v= 
Beachtet man nun noch, daB die Glieder proportional k||u(x, t—jk, k)||? auf 
die Stabilitat keinen Einflu®B haben, so folgt der Satz aus Hilfssatz 1, wenn wir 
Aso wahlen, daB — 246,+ A?(K,+ K,) (27 +1)<0 und 4?(K,+ K,)<1 ist. 


7. Adams Extrapolations- und Interpolationsmethode 


Die fiir die Anwendungen wohl wichtigsten Formeln (4) kann man in der Form 


u(x,t+k,k) = u(x,t, k) + 
, (29) 
+Aa>d> B,.(Q (x,t —w,, k) u(x,t —wk,k) + RF (x,t —k)) 
u=-1 


schreiben. Denn bei ihnen wird der Rechenaufwand, den man bei jedem Schritt 
ausfiihren muB am geringsten, da man ja bei jedem Schritt den Ausdruck 


Q(x, t, k) u(x,t, k) + RF (x, t, R) (30) 


nur fiir einen einzigen neuen Zeitpunkt zu berechnen braucht. 








198 HeE1Nnz-Ortto Kretss: 


Stellt man sich nun die Aufgabe, die B,, ohne Riicksicht auf Stabilitat so zu 
bestimmen, daB bei gegebenen 7 die Ordnung « des lokalen Fehlers maximal wird, 
so wird man zu ADAMs Extrapolations- oder Interpolationsformel gefiihrt, je nach- 
dem ob man von vorneherein 6_,;=0 setzt oder nicht. Wir schreiben das Diffe- 
rentialgleichungssystem (1) in Integralform 


k 
u(x,t-+k) = u(x,t) + f P(x t+ 0) ule t+o) 4 F(x,t+0) de. 
0 


Berechnet man jetzt das Integral mit Hilfe einer geeigneten Quadraturformel 
so erhalt man: 
a) in Analogie zu ADAMs Extrapolationsformel 


u(x, t+ k) =(I+& P(x, t,22)) u(x,t) +&F(x, t) + 


r (31) 
Ss’ 2*¥ pH 0 r+2 
+h DBE" (P (x,t, u(x,t) + F(x, 8) +OW™), 

wobei V (k) durch 

V (Rk) u(x, t) = u(x, t) — u(x,t — k) 
definiert ist, und 

1 
prac [uu +1) (utp —j)du 
0 
ist. 
b) in Analogie zu ADAMs Interpolationsformel 
u(x,t+k) = u(x,t) +k (P(x.#+ hk, -) u(x, t+ k) + F(x, t+ r)) 4, 
(34’) 


+hY Ben ry (P(x, t+ ba) u(x, t+ 2) +F (x, t+ 2) +O) 
w=1 é 
wobei 
1 
‘ 1 
pr a: (u —1)u...(u+y— 2) du 
0 
ist. Ersetzt man in (31) und (32) 
7 k 
Ox; h™ 
und vernachlassigt O(k’**), so erhalt man Scharen von Differenzengleichungen 
deren lokaler Fehler 0(k’*?+ -A?'**) ist. Fiir Scharen (29) ist also 


ad r+1 fir B,=0 (32) 
r+2 fiir B..+0. 


Nach Satz 6 sind diese Scharen fiir parabolische Systeme 


ou ra) 
shan P(x, t=) u 


durch D!)(2h),  setzt A= = konst. 








fiir hinreichend kleine A stabil, wenn P(x, i) ein stark negativ elliptischer 


Operator ist. Fiir hermitesche Systeme 1. Ordnung sind sie dagegen im allgemeinen 





Uber die Differenzapproximation hoher Genauigkeit 199 


nicht stabil. Man kann sie aber ,,stabilisieren‘’ indem man den Differenzen- 
operator 


AQ=Ah P(x, t, D"(2h)) 
durch 


(1) tus? 42 . —_—— r+3 
Ah P(x, t, D"(2h))— (—1) oS A}? (2h); p = min (PF), 7+ 2) 


ersetzt. Fiir die so entstehenden Scharen ist die Ordnung des lokalen Fehlers 
unverandert und sie sind nach Satz 5 bei geeigneter Wahl von A, o stabil. (32) 
gilt daher in diesen Fallen auch fiir stabile Scharen. 


8. Beispiele 
1. Gegeben sei das System von partiellen Differentialgleichungen: 


ou ou 
9 = 455F (33) 


wobei A eine hermitesche positiv definite konstante Matrix ist. Wir ordnen ihm 
nach ADAMs Extrapolationsverfahren die Schar von Differenzengleichungen 


u(x,¢+hk,k) =u(x,t,k) +AA A? (2h) (u (x,t,k) + }(u(x,t,k) —u(x,t—k,k))) (34) 
zu. Der lokale Fehler ist dann O(h?+-k?). Wir wollen zeigen, daB (34) fiir hin- 
reichend kleine A stabil ist. Setzen wir zur Abkiirzung u(x, nk, k)=u,, so ist: 
|| #41 ||? = ||, |? — 24(4u,, A Au,) + ARe((du, A Au, _,) — (4u,, A Au,)) + 


of : A? || A A? u,,||? + - || A A?u,,_4||?— 3A2(A A?u,, A A?u,,_;). 


Nun folgt aus (34), daB 
A((4u,,A Au, 1) — (4u,, A Au,)) = 2A? (A? u,, A? A?u, 9) — 
— $42 (A%u,,, A? A?u,_}). 


Beachtet man, daB (u, v) < $||u||?+ 3 ||v||? ist, so ergibt sich, wenn x der kleinste 
Eigenwert von A bedeutet: 


Il¢n+1(/?S Il, ||? — 2A x || 4%, |[?+ 2 || A?|| (|| 4%, ||? + 4 || 4x, al??-+ i \|4, -ol|*) i 
+ $4? ||A?|| ||4m,|P+ 4 4? |] A? || |] 4a, P + 24? | A?l| (|| A on ll? + |] 4 en all?) 
Nach Hilfssatz 1 ist (34) stabil, wenn 
— 2Ax +4 A?||A*||-(2+4+2+3) <0 





ist. 

2. Gegeben sei ein System von partiellen Differentialgleichungen (1) dessen 
Koeffizienten €C,,,, und fiir welches eine Konstante K=0 existiert, so daB fiir 
alle k, ¢ und alle wEL, 

Re (u, P(x, t, D'! (2h)) u) = K||\u||? (35) 


ist. Wir ordnen ihm nach ADAMs Interpolationsformel die Schar 
(I = 4 h” P(x, t+ k, D®)(2h))) u(x,t +k, k) 


4 (36) 
a (I + = P(x,t,D™ (2h)) u(x, t, k) 


14* 








200 HeE1nz-Otto KREIss: 


zu. Der lokale Fehler ist dann O(k?+-h?). Wir wollen zeigen, daB (36) fiir alle 
A> 0 stabil ist. (Diese Formel ist schon vorher in Spezialfallen z.B. von CRANK 
und NIKOLSoN [1] angewandt worden.) Setzt man zur Abkiirzung (x, nk, k) =u, 
und P(x, nk, D®) =P, so folgt, wenn man (36) quadriert: 


m A? pm 
Ile, 4al]*— AA” Re (nia, Paya %n4a) + lh Paiitnsall? 
= ||u,,||? + Ah” Re(u,, P, u,) + + ||A” P, u,,||?. 
Wegen (35) ist daher 
2? m . m 
(1— KA) [teas lS (1+ KA) [leg ||*— 2 A" Po ty call? + [A B, al 
Fiihren wir als neue Variable v,, durch u,—e?"**v, ein, so folgt fiir k<}K> 


m m . A? 
llen+all?S [len |/? — 6(]]2" Pairs? — lA" Pri); 4 Fak 
Daher gilt fir OS/Sn 


n n 
llensall? — ll]? - Zi lle eal? = | v,|?< — 46 Zila” Ps Me eall? — |2"P, v, ||? 
v= v= 


eee 6 (||A" P41 Yn 41|[? — ||" P, v, ||?) ’ 
Also ist 
llon+a[/?S [|e ||? + 4 []A" A». 


Da h” P, ein gleichmaBig beschrankter Operator ist, so folgt aus der letzten Un- 
to 


gleichung die Behauptung, wenn wir sicher sind, daB die i- + W"P,) fiir 


alle A>0O be-schrankte im ganzen L, definierte Operatoren sind. Dies folgt aber 
fiir k< K~™ aus einem Satz auf den JAN BoMAN mich aufmerksam gemacht hat 
wieder aus der Ungleichung (35). Ist namlich 


v=(I—fa"P,) u 
so folgt 
2 , 
loll? = [lu |f2 + 2a" Built — A Re(w, A Pu) = (1 — KA) [ull 


Also existiert (I —f4"P,)" und ist ein beschrankter Operator. Wir brauchen 
- 
dicht 


jetzt nur noch zu zeigen, daB der Definitionsbereich D von (I — . nP,) 


in L, liegt. Es sei « orthogonal zu D. Dann gilt: 
A m A m 
0=Re (u, (I—+a"P,) u) = |||? — 5 Re (u, A" P,u) > (1 — KA) |I ul 


Also ist « =0 und daraus folgt die Behauptung. 
Bei den praktischen Anwendungen wird man allerdings u,,, mit Hilfe eines 
Iterationsverfahrens bestimmen und muB dann Beschrankungen fiir 4 einfiihren. 
Beispiele fiir Differentialoperatoren die (35) erfiillen sind nach Ungleichung 
(27) alle stark negativ elliptischen Differentialoperatoren. Ein anderes Beispiel 
sind Differentialoperatoren 


| 
P ( x.t SY = y A, (x, t) ~2_: A, hermitesche Matrizen (37) | 
= @ v=1 , Ox, 4 : | 





Uber die Differenzapproximation hoher Genauigkeit 201 


Es ist namlich nach Hilfssatz 2 
(u, A, A, (2h) u) = — (A, A, (2h) u,u)+F, wobei |F|<konst. k||a||? 


ist. Also ist 


2 Re (u, ¥ A, (x, t) A, (2h) u) => (u,A,A,(2h)u) +(A,A, (2h) u,u) <konst. kl] ul]?. 
v=1 v=1 
Im iibrigen ist die Schar (36) fiir Systeme von Differentialgleichungen mit 
konstanten Koeffizienten fiir alle beziiglich L, richtig gestellten Anfangswert- 
problemen stabil. Bei dem obigen Beweis haben wir namlich keinen Gebrauch 
von den speziellen Eigenschaften des Skalarproduktes (u, v) gemacht. Der Beweis 
gilt daher auch, wenn wir das Skalarprodukt durch ein Skalarprodukt (u, Bv) 
ersetzen, wobei B ein positiv definiter selbstadjungierter beschrankter Operator 
von L, ist. (Die Norm wird dann natiirlich durch (wu, Bu) definiert, sie ist mit 
der L,-Norm Aquivalent.) In einer schon zitierten Arbeit (KREISS [6]) haben wir 
aber bewiesen, daB (35) bei geeigneter Definition des Skalarproduktes notwendig 
und hinreichend dafiir ist, daB das Anfangswertproblem beziiglich L, richtig- 
gestellt ist. 


SchluBbemerkungen 


Man kann versucht sein zu glauben, daB man ohne gréBeren Rechenaufwand 
wesentlich genauere stabile Differenzapproximationen erhalt, wenn man statt 
(29) Scharen der Form 


r 


2 i 6,,— B, Q(x, t — wk, k)) u(x,t —pk,k) = . 2X Bu F(%, t—wk) (38) 
betrachtet, da man dann ja noch (ry +1) weitere Parameter 6.,,..., 6, zur Ver- 
fiigung hat. Diese Vermutung ist, jedenfalls was die Ordnung des lokalen Fehlers 
betrifft, nicht richtig. G. DAHLQUIST hat namlich in seiner Stockholmer Disser- 
tation [3] Scharen (38), die gewéhnlichen Differentialgleichungen zugeordnet 
sind, untersucht und gezeigt, daB fiir stabile Scharen 


max = 2 AH] +2 wenn £.,+0 
Xnax ="7+1 wenn £.,=0 


ist. Wir sehen also, daB die allgemeineren Scharen (38) nur fiir 6,0 und 
y=1 (mod 2) zu einer und dann nur um eins héheren Ordnung des lokalen 
Fehlers fiihren. DAHLQUISTs Untersuchungen iiber Scharen vom Maximaltyp, 
fiir die « =r+3, y=0 (mod 2) ist, kann man fiir den Fall von konstanten Koeffi- 
zienten mit Hilfe von Fourier-Transformation auf partielle Differentialgleichungen 
iibertragen*. Man beweist relativ leicht folgenden 





* Fiir y= 1 ist dies: 


Simpsons Regel: Un+e= Unt FAQ(Unse t+ 4Un 41 + Uy) 
und fiir v = 3 z.B. 
Newton-Cotes Formel: Uns g = Unt 2ZAQ(Unist Unis + $O2U, 22 + a5 04, 9), 


wobei der Operator 6 durch 6/,,= /n+4—/n—4 definiert ist. 





202 Hernz-Orto Kreiss: Uber die Differenzapproximation hoher Genauigkeit 


Satz 7. Gegeben sei ein System von Differentialgleichungen 


ou a ca rt = 54: 
Pts 2 4 re i “ie 


dann existiert eine stabile Schar (38) vom Maximaltyp dann und nur dann, 
wenn das Cauchy-Problem fiir (39) beziiglich L, richtiggestellt ist und die Eigen- 
werte von 

P(iw) = > A,(ta,)"... (i@,)” 


1s|*|Sm 


rein imagindr sind. Solche Scharen erhaélt man, wenn man in den Scharen vom 
Maximaltyp Q(x, t,k) =h”P(D™) setzt, und 4 hinreichend klein wahlt. 

Man beachte besonders, daB fiir parabolis Systeme keine stabile Scharen 
von diesem Maximaltyp existieren. Dagegen erfiillen symmetrische Systeme 
1. Ordnung die Bedingungen des Satzes. 

Fiir Systeme (39), die die Bedingungen des Satzes erfiillen, sind diese Scharen 
von sehr hoher Genauigkeit. Sie sind nach Satz 2 dann auch fiir 


=P (Gut Bu (40) 


stabil. Allerdings mu8 man bei ihrer Verwendung fiir (40) vorsichtig sein, da 
sie nach DAHLQUIST schwach instabil sind, d.h. auch wenn die Norm der 
Lésungen von (40) fiir wachsendes ¢ exponentiell gegen 0 konvergieren, so tritt 
in der Schar von Differenzengleichungen eine exponentiell mit der Zeit wach- 
sende Fehlerkomponente auf. 


Literatur 


[1] Crank, J., and P. Nixotson: A numerical method for numerical evaluation of 
solutions of partial differentialequations of the heat-conduction type. Proc. 
Cambridge Philos. Soc. 43 (1947). 

[2] Courant, R., K. O. Frrepricus u. H. Lewy: Uber die partiellen Differenzen- 
gleichungen der mathematischen Physik. Math. Ann. 100 (1928). 

[3] Dau tguist, G.: Stability and Error Bounds in the numerical Integration of 
ordinary Differential Equations. Dissertation, Stockholm 1958. — Auch 
Transactions of the Royal Institute of Technology, Stockholm Nr. 130 (1959). 

[4] GArDING, L.: Dirichlet’s Problem for linear elliptic partial differential equations. 
Math. Scand. 1 (1953). 

[5] Kreiss, H. O.: Uber die Lésung des Cauchyproblems fiir lineare partielle Dif- 
ferentialgleichungen mit Hilfe von Differenzengleichungen. Teil I Acta math. 
101 (1959). — Teil II erscheint in Kiirze. 

[6] Kreiss, H.O.: Uber sachgemaBe Cauchyprobleme fiir Systeme von -linearen 
partiellen Differentialgleichungen. Transactions of the Royal Institute of 
Technology, Stockholm Nr. 127 (1958). 

[7] Lax, P. D., and R. D. RicHTMYER: Survey of the Stability of linear finite Dif- 
ference Equations. Comm. Pure and Appl. Math. 9 (1956). 

[8] RicHtMYER, R. D.: Difference Methods for Initial-Value Problems. Interscience 
Tracts in Pure and Applied Mathematics No. 4 (1957). 


Kungl. Tekniska Hégskolan 
Institutionerna for Matematik 
Stockholm 70 


(Eingegangen am 4. Januar 1959) 





; 





Numerische Mathematik 1, 203—207 (1959) 


A Sufficient Condition for the Instability 
of the q—d Algorithm 


By 


P. WYNN 


There are a number of uses to which the g —d algorithm may be put, among 
which is that of determining the coefficients of a continued fraction from those 
of an equivalent power series. There is no reason to suppose that the g—d 
algorithm is any more unstable than other methods which exist for this purpose. 
It has been chosen for study because of the ease with which the stability may be 
examined, in contrast with that of other methods. 


In the following note a simple expression is derived for the errors in certain 
quantities which are produced by means of the g—d algorithm, resulting from 
a special distribution of error in the initial conditions. In any application of 
the algorithm this distribution and the resulting error growth exist only as 
possibilities. If however the algorithm is shown to be unstable to a certain 
extent in this case, the certainty that it can be more stable has been removed. 
This leads to the establishment of a criterion for the sufficiency of the instability 
of the algorithm. 

Three examples of the application of the algorithm are given for which 
an a priori formulation of the criterion is possible. The infinite series 


fee) 
F,,(2) ~ 2 om4e38 m=0, 1,... (1) 
7=0 
may be transformed into the continued fractions 


(m) 
F, (2) ~— a 


= ? 
ats tae m=0,1,... (2) 





in two ways. 

The first, which is a discrete process, uses a result in the theory of the g—d 
algorithm [1]. According to this, if the quantities g, e{* are built up from the 
initial conditions 

els) =—0 qi”) =C,, s/Cy (3) 


” ! ef) — q\° : " ra qs e\*) cia q\° - et ( ) 


then 


on™), = gi) + elm) mag) = 1,2,..., m=0,1,.... (5) 








204 P. Wynn: 


The second, which exists principally as a theoretical possibility, expresses 
the series as the Laplace integral 
zj=fe“go™(a+t)dt m=0,1,... (6) 
0 


where 
c,=y"(a) s=0,1,... (7) 


and it is remarked in passing that »™) (a+¢) may be recovered from the Laplace 
transform inversion integral 


1 yt+ico 
g™(a+t)=—— J ef, (2) dz (8) 


y—too 





where y is real and positive and sufficiently large that the contour of integration 
lies to the right of any poles of F(z) in the z plane. It may then be shown [2] 
that if, from the initial conditions 


E”(Q)=0 AHW=—™*”Hlo™ |) (9) 


the sequences of functions E™ (¢), Q(t) (where m hereafter is a label and does 
not imply differentiation) are constructed by means of the relationships 




















(m) (m) d im) (m) (m) {are} 
m m m m i m _ 
Ey (t) — Ey -1 (t) = ‘dt Q; (t) , Q;" 1 (4) QF (t) = E™) (t) (10) 
y=1,2,...;5 m0, i,... 
then 
al) = Qim)(a) pm = Ea) vr=1,2,...;5 m=0,14,.... (11) 
If the Hankel determinant 
Cm Cm : Cm+k—-1 
Cm+1 Cm+isss “mth (12) 
Cm+k-1 Cm+k a Cm4-2k-2 
is denoted by H{™ {c,}, with 
Hy” {c}=1, HH} {c.}=0, (13) 
then it may be shown that 
Ht) (c.) H™ {c.} H™), {c.} Hit {¢,} 
(m) _ r+1 s r s Ay s 1 s ren 
“FH (oy HOD (c,) HOH Mey Ot (4) 
H(™) (m) 
(m) _ Hyt'1 {¢s} H7™, {cs} oad 
Prt [H™ {c.}]? y=4,2,.... (45) 
Further, it may be shown [3] that 
Hy {9 (t)} HI") (9) ()} 
EF (4) — 22741 r-1 
dhe [H™ {po (2)}]? (#0) 
tm (2) = AREY (9 (OO HOO} HPT (9 (} HIT (9 (0)} (17) 





Hi), {p) (t)} HE") (p(t) HO) (pl ()} HO FD (2) 


\o weal 


. «sailed 


A Condition for the Instability of the g—d Algorithm 205 


Clearly, the occurence of small errors 6 {c,} in c, will introduce corresponding 
errors 6 {e™}, 6 {q)} in the quantities e”) and g”) computed by means of equa- 
tions (3) and (4), and hence errors 6 {a}, 6 {8} in the quantities a”), B™ 
computed from equation (5). The relative errors in c, are 6 {c,}/c,, whilst those 
in «™ and B™) are 6 {a }/a™) and 6 {8\}/A\™) respectively. The ratios 


5 {al™)} Cn 


(m) . a amy 

c {al™); c,} TICS Gd m+22r+ilnEm, (18) 
m).  y — 4B} on 

{Br 5 Cn} = ato m+2r+-22n2>m (19) 


which may be referred to as condition functions, measure the stability of the 
process which uses equations (3), (4), and (5). If, for any combination of small 
errors 6 {c,} in c,, m=O, 1,... the condition functions (18) and (19) are greater 
than unity, then the process is unstable; if for every combination of small errors 
d{c,} in c,, m=0,41,..., the condition functions (18) and (19) are less than 
unity, then the process is stable. 

A sufficient condition for instability follows from consideration of equations 
(10), (14), (14), (15), (16) and (17). Suppose that the small errors 6 {c,} are pro- 
duced by a variation in ¢ from a to a+Aa. Then 





- ( Oly 
6 {¢,} = lim { x | Aa= 044144. (20) 


The resulting errors in «) and £\) are respectively 





(m) 
Ofer) tim FF} 4e 








(21) 
= {8 — B™,} 4a 
and 
. ¢ apm) 
(m)\ r 
6{Br")} lim { at } Aa (22) 
= Atm fai, — af} Aa. 
The condition functions for this particular error distribution are then 
m) . py”) vs pin) 
c {al ). Ca} —— pa (23) 
and 
{ox — al} 
CFE"; 6} Ee, (24) 


a 


If, a posteriori, it is found that either of the quantites (23) or (24) exceeds 
unity, then it can be said that the process used in obtaining these quantities 
was unstable. 

An a priori examination can be made in the following three cases in which 
simple analytical expressions may be obtained for the quantities occurring in 
the expressions (23) and (24). 








206 P. Wynn: 














When 
~Cg=1, ¢,={c(c+1)...(e+s—1)}4* s=1,2,... (25) 
it may be shown that 
qi”) = 1 qi”) = (c+r7r+m — 2) 
2 c+m’ (c+ 27+ m — 3) (c+ 27+ m — 2) ’ (26) 
(m) __ nerd silk 
c, ~ (e+ 27+ m — 2) (c+ 27+ m — 1) m,7 =0,1,... 
that is 
(m) __ 1 (c+r+m—1) y 
- eTetanw (¢+ 27+ m) ‘Care es ye (27) 





wane _—#r(c+r+m — 2) 
fms (c+ 27+ m — 1) (c+ 27+ m — 2)8 (c+ 27+ m — 3) © ay 


For values of 7 which increase without limit, the expression (23) tends to ze... 
The expression (24), however, is given by 





mo Ym E+”) 
othr 5 Cy} y(c-+m—2)° (29) 
Letting » take its upper bound, and letting 7 increase without limit there follows 
: ‘m). eee 
max lim ¢ {Bi ); é,} een 8 (30) 


For values of the parameter c which are nearly equal to the numbers 2, 1, 0, —1,... 
the process of computing the quantities «”), 8” by means of equations (3), 
(4) and (5) is therefore unstable. 








When 
Co=1, ¢,=a(a+i1)...(a+s—1) s=1,2,... (31) 
it may be shown that 
g=(at+r+m—1), =r (32) 
so that 
a” —at2rt+m pm =—r(iatr+m— 1). (33) 
Thus 
lim {cep 5 Cy} = = ~, (34) 
Jim c (8); ¢,} = + “we (35) 


Thus, if the parameter a is approximately equal to either 0, —1, --2,... the 
q —d process is again unstable. 


If 
h=t : 
‘=.= pi a, A, (30) 
h=0 

and the quantities 4, h=0,1,...,¢ are real and may be ordered according to 

the inequalities |A,|>|A,|>--->|A,|, then it may be shown [4] that 

i (m) = i m) — = 

Jim. of A, Jim 8; 0 r=0,1,...,¢. (37) 








A Condition for the Instability of the g—d Algorithm 207 


In this instance 
,, lim ¢ {al ; c,} = 0 (38) 
and 
lim ¢{p™; c,} aa (39) 


n, 1—> 00 


Thus, if any of the ratios “14, is greater than unity, the use of the g—d 


algorithm in this case is also unstable. 


Acknowledgement. The author is grateful to the Deutsche Forschungsgemein- 
schaft for providing him with a grant which has enabled this note to be written. 


References 


[1] RutisHauser, H., Der Quotienten-Differenzen-Algorithmus, S.13. Basel u. 
Stuttgart: Birkhauser 1957. 

[2] RuTiIsHAusER, H.: Ein kontinuierliches Analogon zum Quotienten-Differenzen- 
Algorithmus. Arch. Math. 5, 132—137 (1954). 

[3] Wywn, P.: Una Nota su un Analogo Infinitesimale del g — d Algoritmo, Rendiconti 
del Circolo Matematico di Palermo. To appear. 

[4] RuTIsHAuUSER, H.: Op. cit., S. 18. 


Institut fiir Angewandte Mathematik 
der Universitat Mainz 


(Received March 25, 1959) 








Numerische Mathematik 1, 208—220 (1959) 


Zur numerischen Fourier-Transformation 
Von 


F. L. BAUER und H. J. STETTER 


I. Einfiihrung 


Die numerische Durchfiihrung einer Operation an einer vorgegebenen Funk- 
tion /(¢) kann im allgemeinen nur mittels einzelner, numerisch bekannter ,,Stiitz- 
werte“ geschehen. Im folgenden wird durchweg angenommen, daB dquidistante 
Stiitzwerte /, (Stiitzabstand A) beniitzt werden. Sind diese Werte als fest vor- 
ausgesetzt, dann ist es fiir theoretische Untersuchungen zweckmaBig, anstelle 
von f(t) die folgende ,,Stiitzfunktion“ } (¢) zu betrachten: 

(1.4) f(t): =h>df,- d(t -t,) 
7 

mit 

ti=btuh (OS&<h; w=0, +1, +2,...) 
und | 

ij a = / (t,,) , 
wobei 6(¢) die Dirac-Distribution bezeichnet. In vielen praktischen Fallen wird 
to=0 oder h/2 sein. 

Fiir die numerische Fourier-Transformation, bzw. die numerische Fourier- 
Analyse periodischer Funktionen ergeben sich mit (1.1) sofort die bekannten 
Interpolationsformeln:- — 

a) Fourier-Transformation: 


~ +00 . a +00 . . 
(1.2) F(y) -_ f eB tvt Fy) dit=h b> ‘grrr 
—oo u=—Oo 
b) Fourier-Analyse (Periode 1= Nh, N eine natiirliche Zahl) : 
1 ae , Xo 
(1.3) é,=f gatas tig dt=—- ae (n ganz), 
0 MS 


was fiir 4j=0 die bekannten Rungeschen Formeln liefert. 


Im folgenden werden zunachst die Beziehungen aufgezeigt, die zwischen dem 
Spektrum F(v) einer Funktion /() und dem Spektrum F(y) ihrer Stiitzfunktion 
} (t) bestehen. Dann wird untersucht, wie man fiir bestimmte Klassen von Funk- 
tionen aus dem Spektrum F das im allgemeinen numerisch nicht zugingliche 
Spektrum F gewinnen kann. SchlieBlich werden noch einige praktische Beispiele 
fiir die Anwendung der folgenden Uberlegungen gegeben. 

Fiir den Fall der Fourier-Analyse periodischer Funktionen wurde ein Teil der 
Ergebnisse bereits in einer Arbeit von QuADE und CoLLatz [1] gewonnen, aller- 





Zur numerischen Fourier-Transformation 209 


dings mit sehr speziellen Methoden, die die allgemeinen Zusammenhange nicht 
immer voll in Erscheinung treten lassen. Erste Ansaitze zu den Uberlegungen 
von Abschnitt III finden sich in einer Arbeit von DALLENBACH [2]. 


Da sich der Fall der Fourier-Analyse periodischer Funktionen durch die 
Zulassung von Punktspektren F(v)= >) c,-6(v—m) der allgemeinen Fourier- 


Transformation unterordnen laBt, wird er im folgenden zunichst nicht besonders 
behandelt. Die Ergebnisse werden jedoch in Abschnitt V auch in der Schreibweise 
der Fourier-Analyse dargestellt. 


II. Der Uberlagerungssatz 
Der Zusammenhang zwischen den Spektren einer Funktion und ihrer Stiitz- 
funktion wird beschrieben durch den folgenden 
Uberlagerungssatz. /(¢) habe die Fourier-Transformierte 


+00 
F(v) = f e?*""7(y) dt 


(kurz: / (2) o—+ F(v)) und /(t) sei die Stiitzfunktion von f/(t) nach (1.1). Dann gilt: 


+00 t, 


(2.1) i()o Fw) = > eT Fly ty). 


“u=— oo 


Dieser Satz stellt eine Anwendung der Poissonschen Summenformel [3] dar; er 
oo 


ergibt sich auch rasch mit Hilfe der Distribution >’ 6(¢—h) (Summendelta- 
Operator): Es gilt namlich ee 


> 66 — po + ¥' bly ——y), 
pa (¢ — wh) i 2 ( i; #) 


da >’ 6(¢—yh) als periodische Funktion mit der Periode h ein Punktspektrum 
mit dem Abstand 1// haben muB, dessen Komponenten sich zu 1/4 berechnen 
(z.B. iiber eine Regularisierende der 6-Funktion). 


Damit gilt 
ve 
h S6t ty — phy ore tree. Da(v—Fu) = De" alr fn) 
“ 7) . 7 
und 


jy = 10) [00-4 nh) 


es 
— —2 “ 
= Se mit "F(v— =n). 


lt 


=" 
o + F(y) * Det aon) 





Das Spektrum der Stiitzfunktion / entsteht also aus dem Spektrum von / durch 
Superposition einer unendlichen Folge von Spektren, die aus dem Spektrum F 
von f durch Verschiebung um ganzzahlige Vielfache von 1/h und Multiplikation 
mit einem Phasenfaktor entstehen. 

Fiir 4;=0 ergibt sich ein periodisches Spektrum mit der Periode 1/h (Fig. 1), 
fiir 45= ; h (0<p<q; p,q ganz, teilerfremd) ein solches mit der Periode g/h. 











210 F. L. BAUER und H. J. STeEtTTeErR: 


Offensichtlich wird fiir kleines || (Iv|< xx) das urspriingliche Spektrum : 


um so mehr verfalscht, je langsamer F(v) mit wachsendem |y| abnimmt; fiir 








|»|> 3h findet eine totale Anderung des Charakters von F statt. 
Nur im Fall 
¥ 1 
a Fly) = an 
(2.2) (vy) =0 fir |»|> or 
Fig. 1. wahres Spektrum F (v); ---— verschobene Spektren F (» + aE —-+— Summenspektrum F (v) 


tritt keine echte Superposition ein; die verschobenen Spektren werden nur 
aneinandergelegt und man erhalt das urspriingliche Spektrum F durch Aus- 


blenden des Bandes |»| <> aus F. Wegen 


F(») =F») - dy, @) 


mit 
rm 1 
1 fir |»|< Dh 
Ais, (v) ‘= ‘ 
0 fir |»|> 
2h 
und 
sin—-t 
at oh, (») 


muB im Fall (2.2) gelten: 


in (¢ — t — ph) 
(SHANNON [4]). 





(2.3) i) =Dt 


y(t te— mh) 


III. Die Abminderungsfaktoren 
Nach dem Uberlagerungssatz (2.1) kann es nur dann méglich sein, F aus F 
zu bestimmen, wenn dem Verlauf von F eine GesetzmaBigkeit zugrunde liegt, 


die bekannt ist. 
Wir untersuchen deshalb zunachst Funktionen der folgenden Klassen S,, (é9) : 


Definition. { € S,,(t9), falls: 


(3.1) f(t) m-mal differenzierbar und /™(¢) eine Stufenfunktion mit Sprung- 
: stellen bei t=: =t)+h (|to|<h; w=0, +1, +2,...) ist*, 


(3.2) f(t), 7, ..., /™ () Fourier-Transformierte besitzen. 





* Es handelt sich hier um denselben Abstand h, der auch als Stiitzabstand ver- 
wendet wird. Wir nehmen im folgenden h als fest an und lassen die Abhangigkeit 
von diesem Parameter unbezeichnet. 








Zur numerischen Fourier-Transformation 211 


Dann gilt: 
(3.3) 1 Sy (bo) XF() = Paw (v) e-2747% Ee 


wo ,;,(v) eine periodische Funktion der Periode 1/h ist und das Ha“ensymbol 
den AusschluB des Pols bei y=0 andeutet (,,partie fini‘). 

Beweis. Nach (3.1) ist {*” Stiitzfunktion mit dem Stiitzabstand h, hat also 
nach (2.1) ein periodisches Spektrum der Periode 1/h, das bei einer Verschiebung 
von / um é, noch mit dem entsprechenden Phasenfaktor zu versehen ist: 


(3.4) f+) (t) o—- Pin (v) e~2 280% 
Nach (3.2) folgt aus /(¢) o— F(v) 
(3.5) pom) (t) o— (22iv)™*1 F(p) j 


(3.4) und (3.5) ergeben die Behauptung von (3.3) von links nach rechts. 


Andrerseits folgt aus der rechten Seite von (3.3) sofort (3.2), ferner sieht 
man iiber (3.4), daB /"*” eine um #, verschobene Stiitzfunktion ist, was (3.1) 
ergibt. 

Aus (3.4) folgt noch wegen (3.2) 


Pap (0) = Dirt = lim[/™ (T) — f"(— T)] =0, 


also 

(3.6) F(t) =0 fir w= +1, +2,..., 
woraus tiber (2.1) wieder 

(3.7) F (0) = F(0) 

folgt. 


Nach dem Uberlagerungssatz (2.1) gilt also fiir f€S,,(é)) und f nach (1.1) 














also 
to — bo 1 


F (v) = pia (v) e259 rae > cr, re, 


m| 





wobei das Hakensymbol wieder die Pole » =/A ausschlieBt. 


Mit der Abkiirzung 4,: = fo 7 f6_ ist also 





(3.8) F(v) = F(v) -G,,(¥3 Ag) 








212 F. L. BAvER und H. J. STETTER: 


mit 


G9) Ga(r, Ay): =(EY"[E- carn 1) 
dy - 


0) 





etivh(1—2 4) 








sin mvh 0<4,<1 

(3.10) H(v, Ay): = >i e727! 4e|__ 4 — laa cot avh A, = 
4 v— - e~tivh(L+2 dy) 

ah —1<4,<0. 
sin zvh 


Den Wert H der Partialbruchsummen (3.10) erhalt man am einfachsten dadurch, 
daB man fiir eine Funktion der Klasse S, F(v) und F(v) vergleicht, z.B. fiir die 
geeignet verschobene Funktion 4, (#). 

Die Funktionen G,,, mit deren Hilfe man F aus F bestimmen kann, werden 
bei der numerischen Fourier-Analyse als ,,Abminderungsfaktoren“* bezeichnet ; 
wir wollen diesen Namen auch fiir den allgemeineren Zusammenhang beibehalten. 

Aus (3.9) und (3.10) erhalt man fiir die Werte der G,, an den zunachst aus- 


geschlossenen Stellen »y = . fe (u=0, +1, +2,...) 


(3.14) G, (4 ' Ay) := lim G,,(v,4,) =0 (u+0), 
gue 
(3.12). Gy (0, Mp) : = lim G(r, do) = 1. 


Wegen (3.6) und (3.7) gilt also (3.8) auch fiir » = : Mt. 


Dagegen haben die G,, fiir 4,=0 bei geradem m und fiir 4j= +4 bei unge- 
radem m Pole an den Stellen »y = a ob ; . Wie man aus (2.1) und (3.3) erkennt, 


wird in diesen Fallen / =0 auch fiir F +0, so daB eine Bestimmung von F aus 
(3.8) unmédglich ist. 

Fiir 4,0 und ++ haben die G,, Keine Pole, wie man aus (3.10) nach- 
rechnet. 

Aus (3.8) folgt natiirlich auch, daB fiir /€ S,, f(¢) durch seine Stiitzfunktion 
j (t) eindeutig bestimmt ist: 


(3.13) f(t) =} (t) * Zn (t, Ay) =h- Dba mt 5 to — wh, Ay) 
mit 
8m (t, Ag) :°-* Gy, (v, Ag). 


Durch Einsetzen von / (t) =6(t) ergeben sich fiir die g,, die folgenden Eigen- — 
schaften: 


(3.14) Em (t, Ao) € Sin (— Ay), 
mel 1 yw=o0 
(3.15) Bm (Hh, Ao) he uO, ganz. 





* Vegl. [1] 





Zur numerischen Fourier-Transformation 213° 


Durch (3.14) und (3.15) kénnte man auch die g,, definieren und dadurch umge- 
kehrt zu den G,, gelangen. 

In den Fallen 4j=0, m gerade und | A,|=%, m ungerade gibt es unter den 
Funktionen, die (3.15) und (3.1) geniigen, keine, die im Unendlichen von geniigend 
groBer Ordnung verschwinden, so daB (3.2) und damit (3.14) nicht erfiillt werden 
kann. 

Beispiel. g,(t, 4) kénnte u.a. die in Fig. 2a dargestellte Funktion sein, die 
aber fiir ¢-> oo nicht verschwindet. Dagegen verschwindet nicht nur g, (é, 0) 
(Fig. 2b), sondern auch z.B. g,(¢, 4) fiir t— oo (Fig. 2c). 


a 49(t, %) b g(to 


RN A a, 
/ ie ve A | A ah 




















e g(t, %) 
\ 
An Af ji t 
= -A| kh 2h 
4 
Fig. 2a—c 


IV. Grenziibergang m-> co; erzeugende Funktion 


Es soll untersucht werden, ob die G,,(v, 45) fiir m-—> oo gegen eine Grenz- 
funktion G,,(v, My) streben. Wenn G,, existiert und Fourier-Transformierte ist, 
dann streben auch die g,,(¢, 49) einer Grenzfunktion g,, zu. Die Klasse S,, (é,) 
wird man dann sinngemaB so definieren: 


(4.1) f(t) € Seo fo) X1() (t) * 8x0 (t, Ap). 
Zunachst hat man wegen (3.12) aie 
(4.2) Goo(0, 4) = lim G,,(0, 4) =1 


Fiir |vy|>0 konstruieren wir zum Nachweis der Existenz und gleichzeitig zur 
Bestimmung von G,, eine ,,erzeugende Funktion“, die folgendermaBen mit den 
G,, zusammenhangt : 


(4.3) ; D(z; v, Ay) _— 2: Gan oR 


® \aBt sich auf folgende Weise als analytische Funktion der komplexen Ver- 
anderlichen z bestimmen: 


Mit den Abkiirzungen #: =2vh und (mit H nach (3.10)) 


e +10 (1F2 Ay) 
H|—, Ay <———=—— A, 20 
(4.4) H (8, Ay) : = En ) sin 8 a 


cot # A,=0 











214 F. L. Baver und H. J. STetTer: 


gilt nach (3.9) 
ee (— 1)" m! 1 


m= 
gmtt a et x 
dé H (8, Ap) 





(0<|d| <2) 


und folglich 








2 a9 tet (4H, 4) 


Damit ist 


(2:0, Ay) =0 roe ap)” FO, 4a) =0-A(B(1 — 2), A), 


a +48 (1—2) (1F2 Ay) 
——— ¢ . A,y20 
(4.5) D(z; 3, Ay) = | sin #(1 — 2) a 
3 cot #(1 — z) Ay = 
Bei z=1 hat ® einen Pol 1. Ordnung mit dem Residuum —1, die weiteren 
Pole liegen bei z, =1—42. 


a) 0<|»|< = ; (od. 0<|d| <4): 
Schreibt man wegen des Pols bei z =1 ®(z) in der Form 


(4.6) D(z) = (z —1)™ =2 2" +4 Dima" ; 





dann muB die zweite Potenzreihe bis zu dem dem Nullpunkt nachstgelegenen 
Pol z,, konvergieren. Wegen |z,,|>1 folgt daraus 


lim J» == ©, 


m—> OO 


Mit 





7 =1+,, nach (4.3) und (4.6) 
ergibt sich also direkt: 


(4.7) Goo(v, Mg) = lim G,(v, 49) =1 fir O<|»| <5). 
1 
b) |?| =e (od. |#| = =): 


Hier ist z,,;=—1* und @ hat dort einen Pol 1. Ordnung mit 





(4.8) Res ®(:; +4, Ay) — —¢F#in4 fiir alle Ay. 
s=-1 

Also ist 

4 Di aot — gettin, — 

(4.9) leak I Wa z+1 + Lim? 


on > (1 net (— rrr g” 4. Dim?" 





* In diesem Abschnitt beziehen sich doppelte Vorzeichen stets auf die Unter- 


scheidung »y = + . 





Zur numerischen Fourier-Transformation 215 


wobei wie vorher lim ¥,,=0 folgt, da die zweite Potenzreihe den Konvergenz- 
m—> CO 
radius 3 haben muB. 


Wie (4.9) zeigt, streben aber jetzt die G,, fiir gerades m und die fiir unge- 
rades m verschiedenen Grenzwerten zu, ndmlich 


1 
+ wm etry ’ 





sim, Gun (2 35> 4o) = 


(4.10) 


; 1 
dim. Genir( Dh’ Aa) 4p ethinds * 


Insbesondere divergieren fiir 4j=0 die G,, mit geradem m und fiir | 4)| = die 
mit ungeradem m, wie wir schon friiher festgestellt hatten. 





1 
Cc) |»| in ° 
Wegen (3.14) ist nach (3.3) 
(4.11) Gu (r+ ms Ao) = Gn (0, Ap) ae v . 
bu 
+ = 
h 
Aus der Konvergenz der G,, fiir |v|< ude (die Sonderfalle seien ausgeschlossen) 


folgt die Existenz eines M, so daB ” 


Gy<M<oo _ fiir jedes m und |y| < a 


und daraus mit (4.11) 


1 


(4.12) Goo (v, Ap) = lim G,,(v, 49) =0 fiir |r| > ox 


Mit (4.7) und (4.12) haben wir also gefunden, daB 
(4.13) Goo (0, Mo) = lim Gur, Ae) = Ay”) 


wobei die Abhangigkeit von A, nur noch in die Werte fiir |»| = sh eingeht, 
die nach (4.10) im allgemeinen ungleich $ sind, jedoch so, daB sich die Werte bei 


1 1 pe 
y = ——und — —— zu 1 ergianzen. 
2h 2h 8 


Da nach (3.15) g,,=6(t) ist, also 
G,,(v) =1 fiir alle m und A, 


gilt, muB nach dem Uberlagerungssatz (2.1) mit fy=0 


+00 


(4.14) a (» +4 , A) =1 


pu=—Co 
sein, was fiir unser G,, erfiillt ist. 
Aus (4.14) sieht man auch, daB es geniigt hatte, die gleichgradige Beschrankt- 
heit der G,, fiir |v|< +“ zu beweisen, weil dann iiber (4.12) und (4.14) bereits 


(4.13) gefolgt ware. 
15* 











216 F. L. BAvErR und H. J. STeTTER: 


Weiter folgt aus (4.13) 


sin ‘ t 
Boo(t, Ao) = lim 8m(t,4o) = 2, thy, (”)- 


Damit erhalt (4.1) die Form: 


{Q€S.% Fv) =0 fir |r}> | 


2h° 


Die Funktionen der Klasse S,, sind also genau diejenigen beliebig oft differen- 
zierbaren Funktionen, die wir am Ende von Abschnitt II betrachtet hatten, 


namlich diejenigen, fiir die (2.2) und (2.3) gelten. Fiir solche Funktionen wird 


also — wie bereits dort festgestellt — das Spektrum F im Bereich |»|< a exakt 


durch die numerische Fourier-Transformation nach (1.2) geliefert, und zwar auch 
bei beliebiger Verschiebung der dquidistanten Stiitzstellen. Es ist aber wohl zu 
beachten, daB dies nur fiir die Funktionen der Klasse S,, gilt. 


V. Ubertragung der Ergebnisse auf die numerische Fourier-Analyse 
periodischer Funktionen 
In diesem Abschnitt sei /(#) stets eine periodische Funktion mit der Periode 1 


und es sei 
1 


(5.1) h=~, (N>0, ganz). 
Das Spektrum von / hat dann die Gestalt 
(5.2) f(t)o -F(v) = & c,d(v —n) 
mit 

4 
(5.3) c= fe tiny dt. 

0 


Die Fourier-Koeffizienten ¢,, der Stiitzfunktion f(t) sind gegeben durch (1.3). 
Uber (5.2) und (5.3) lassen sich dann alle Ergebnisse der Abschnitte II—IV 
auch fiir die Fourier-Koeffizienten c, und ¢, aussprechen, alle Funktionen von » 
gehen in Funktionen von ganzzahligem » iiber. 
Der Uberlagerungssatz (2.1) erhalt dann die Form 
F $0 oh 


(5.4) ine po € ° Cn uN 


n oo 


Die Klassen S,, enthalten nun diejenigen periodischen Funktionen, fiir die (3.1) 
gilt, und (3.3) liefert: 





(5.5) f(t) € Syn (lo) X Cn = Pry (2) ies <5 





Aus (5.5) und (5.4) folgt als Analogon von (3.8): 
(5.6) cC, =C,°G,,(, Ap) 


mit G,, nach (3.9) und (3.10) unter Einsetzen von (5.1). Fiir 4g=0 und $ sind 
das die Abminderungsfaktoren 7, von [7]. 


L 





Zur numerischen Fourier-Transformation 217 


In (3.13) sind jetzt die g,,(¢, 4p) diejenigen periodischen Funktionen, die die 
G,,(”) als Fourier-Koeffizienten besitzen, also 
+00 f 
(5.7) Bm (t, Ay) - = p eFA'nt G.(n, Ap) . 
Die Eigenschaften (3.14) und (3.15) bleiben mit der neuen Bedeutung von S,, 


erhalten. 
Der Grenziibergang m-—> oo liefert schlieBlich als Analogon zu (4.13) 


m—> 00 N 
Oo n> a? 


die Werte fiir » = N/2 bei geradem N folgen aus (4.10). 

Man sieht, daB nur fiir solche beliebig oft differenzierbaren, periodischen 
Funktionen, die keine héheren als N/2-te Fourier-Komponenten besitzen, die 
Fourier-Analyse nach RUNGE die Fourier-Koeffizienten exakt liefert. Dies ist 
nur eine andere Formulierung der bekannten Tatsache, daB das Runge-Verfahren 
die Fourier-Koeffizienten desjenigen trigonometrischen Polynoms N/2-ter Ord- 
nung liefert, das die vorgegebenen Stiitzwerte besitzt. 

Beispiele fiir die Anwendung von (5.6) und einzelne Werte von G,,(”, 0) und 
G,,(”, %) findet man in [J]. 


VI. Anwendungen 


Die Anwendung des allgemeinen Uberlagerungssatzes (2.1) ist natiirlich nicht 
auf den Spezialfall von Funktionen aus den Klassen S,, beschrankt. Bei Kenntnis 
der GesetzmaBigkeit fiir das Abklingen von F(v) lassen sich auch in andern Fallen 
Abminderungsfaktoren bestimmen, wie an zwei Beispielen erlautert wird. 


Beispiel 1. Es gestatte F(v) die Darstellung 
F(v) = pip (v) e727", 
d.h. f(t) laBt sich in der Form 


%. c 
1) = aire 





schreiben. 
Dann ist nach (2.1) mit 4;=0 


- Cos(2ma|y— wh| —*2 
F (v) = pi (r) : fii 


iir 
Sin 





2u—1 <ox 2u+ 1 
——— >) > =" : 


a2 2h 
h 


Es existiert also eine Beziehung von der Art von (3.8) 


F(v) = F(v) - G(r) 





mit 
Sin == -¢— #4" 
G(v) = in | ape tT a 


Cos(2a|y—yh| — <*) a... 


\ 

















218 F. L. Baver und H. J. STeTTER: 


Beispiel 2. Fir gewisse periodische Funktionen vom Typ f(t) =e%"**! 4, (é) 
gilt ‘ 


(6.1) on= bal 


Nach dem Uberlagerungssatz ist deshalb fiir N =4k (k>O, ganz) 





~ 1 
Cy, = palm) - De ery A 
Es ist also i 


(6.2) G(n) = = : 





Die G(n) lassen sich in diesem Fall wegen des raschen Ansteigens von (+N)! 
leicht numerisch bestimmen. 


In [1] ist mit N =12 als Beispiel die Funktion /(t) =e?*™’ behandelt, die 
zwar nicht zur obigen Klasse gehért, deren Fourier-Koeffizienten aber durch 
(6.1) gut beschrieben werden. In [J] ist jedoch als Naherung /€ S,, angenommen, 
alsoG=h,- Die ¢, liefern auch fiir »<6 recht annehmbare Naherungen der c,, 


immerhin tritt bei ¢, ein Fehler von 2,3% gegeniiber dem wahren c; auf. 


Bei einer Korrektur von ¢,; nach (6.2) erhalt man dagegen nur einen Fehler 
von 0,09% gegeniiber dem wahren Wert. 


VII. Korrekturen héherer Ordnung 
Obwohl beim Vorliegen einer Unstetigkeit in der m-ten Ableitung von /(t) 
bekanntlich fiir |y|—> co F (*) =0 (arer] gilt, ist im allgemeinen fiir kleine |»| 
die Abweichung so betrachtlich, daB die Naherungsannahme / (¢) € S,, nur schlechte 
Resultate liefert. 


Bei Bestimmung von F fiir die Schrittweite h und fiir die Halfte davon 1aBt 
sich unter Beniitzung der Ergebnisse von Abschnitt II und III haufig ein erheb- 
licher Genauigkeitsgewinn erzielen, wie an einem Beispiel gezeigt werden soll. 


Beispiel 3. Vorgelegt sei eine Funktion mit Sprungstellen in der 1. Ableitung 
bei einer oder mehreren der Stellen ts sonst sei / beliebig oft differenzierbar. 
In den #, sollen aber nur die ungeraden Ableitungen Sprungstellen besitzen, die 
geraden Ableitungen seien auch dort stetig. 


f(¢) 14Bt sich dann in der Form 


f(t) = 2, fen—a(d) mit fyy—1 © Sen—i(éo) 
darstellen. 
Anstelle der groben Naherung /€ S, wollen wir die Naherung 


(7.1) f(t) =A +h) 
betrachten (mit /,°— F,). 














Zur numerischen Fourier-Transformation 219 


Es ist dann nach (3.8) 

(7.2) F=6,R+6%=GA+6,%, 

wobei sich die gestrichenen GréBen auf die Schrittweite h/2 beziehen. 
Numerisch bestimmen la48t sich aber (unter der Annahme (7.1)) nur 


a 
~ a 


(7.3) F:=K+K und FP: =F’ +E, 
da die Komponenten der Zerlegung (7.1) nicht bekannt sind. AuBerdem gilt noch 
(7.4) R=6h=GF ud R=6,,=G,F. 


Durch Auflésen von (7.3) und (7.4) z.B. nach F und F, und durch Einsetzen 
in (7.2) ergibt sich nach einiger Rechnung 
G;(G3—Gi) (| _ 
Goce” 





(7.5) F =F’ + 
mit 
F’: =G,F’ und F:=G,F. 


Bei der Naherung /€ S, ergibt sich mit der Schrittweite 4/2 gerade der erste 
Summand von (7.5), unsere Uberlegung liefert also den zweiten Summanden 
als Korrektur. 

In der folgenden Tabelle sind fiir /(¢) =|sin 27¢|, das vom eben betrachteten 
Typ ist, drei auf verschiedene Weisen numerisch gewonnene Fourier-Koeffi- 
zienten den exakten Werten gegeniibergestellt. Es wurden in jedem Fall dieselben 


























Tabelle 
Runge-Verf. (1.3) Mit Abminderungsfaktor | Mit Korrektur nach (7.5) Exakte Werte 
(I) (III) F 
2°Ce — 0,455 34 — 0,41522 — 0,424 78 — 0,424 41 
2°l, — 0,12201 — 0,083 44 — 0,085 31 — 0,084 88 
22°C, — 0,089 32(:2) — 0,03620 — 0,03620 — 0,03638 
2°Cs (— 0,12201) — 0,020 86 — 0,02002 — 0,020 21 
2° C9 (— 0,455 34) — 0,01661 —0,01271 — 0,01286 
(LV) —(III) (IV) — (II) 

. 1075 % . 10-5 % 

2*Cy + 37 0,1 —919 2.3 

2+, +43 0,5 — 144 1,7 

2 +b, — 18 0,5 — 18 0,5 

2°Cs —19 0,9 + 65 3,2 

2° Cio —15 1,2 + 375 29,2 














12 Stiitzstellen verwendet; die ersten Werte sind die ¢, nach (1.3), die zweiten 
sind unter der Annahme /¢€ S, nach (5.6) korrigiert, die dritten schlieBlich ent- 
halten noch die weitere Korrektur nach (7.5). Weiter sind noch die Fehler der 
zweiten und dritten Werte gegeniiber den exakten Werten absolut und in Pro- 
zenten angegeben. Dabei zeigt sich, daB bei Beniitzung von (7.5) insbesondere 
die zunachst schlechten Werte von c, und ¢y) noch wesentlich verbessert werden. 








220 =F. L. Bauer und H. J. STETTER: Zur numerischen Fourier-Transformation 


SchluBbemerkung 


Die vorliegende Arbeit basiert auf Ansdtzen des erstgenannten Verfassers, 
iiber die auf der GAMM-Tagung in Hamburg, 1957, berichtet wurde. Die weitere 
Ausgestaltung geht auf den zweitgenannten Verfasser zuriick. Die mitgeteilten 
Ergebnisse haben Anwendung gefunden bei Untersuchungen des zweitgenannten 
Verfassers tiber das Rumpf-Fliigel-Wechselwirkungsproblem der linearisierten 
Uberschallstrémungstheorie. Herrn Dr. Cur. WitzGALL danken wir fiir die 
Durchsicht eines ersten Entwurfs des Manuskripts. 


Literatur 


[1] QuapE, W., u. L. Cotiatz: Zur Interpolationstheorie der reellen periodischen 
Funktionen. S.-B. preuB. Akad. Wiss., phys.-math. Kl. 30 (1938). 

[2] DALLENBACH, W.: Verscharftes rechnerisches Verfahren der harmonischen Ana- 
lyse. Arch. Elektrotechn. 10 (1922). 

[3] CouRANT-HILBERT: Methods of Mathematical Physics, S.76f. New York: 
Interscience Publ. 1953. 

[4] SHANNON, CL.: The Mathematical Theory of Communication, S. 53. Urbana: 
Univ. Illinois Press 1949. 


Institut fiir angewandte Mathematik 
der Universitat Mainz 
und 
Mathematisches Institut der 
Technischen Hochschule Miinchen 


(Eingegangen am 23. Mai 1959) 














eS ene eee renee . 


Numerische Mathematik 1, 221 —239 (1959) 





Uber den Grad der Approximation 
mit Bernstein-Polynomen 


Von 


P. C. SIKKEMA 


1, Einleitung und Ergebnisse 
Im Jahre 1885 bewies WEIERSTRASS [J] den folgenden Satz iiber die Approxi- 
mation auf einem reellen, begrenzten, geschlossenen Intervall [a, 6] einer reellen 
stetigen Funktion /(x) durch Polynome: 
Ist f(x) ¢C[a, 6], so extstiert zu jedem e>0 ein Polynom P(x) derart, daB fiir 
alle Werte x € [a, b| dié Ungleichung 


| f(x) — P(x)|<e 
erfiillt ist. 
Es ist klar, daB ohne Einschrankung der Allgemeinheit angenommen werden 
kann, daB a=0 und }b =1. 
Ausgehend von einer Reihe {B,,(x)} (7 =1, 2, ...) speziell gewahlter Polynome 


n 


B, (x) = > t(=) Pus (2) 


v=0 


Pn» (x) =(*) x” (1 —x)""” (s = 1,2,...; » =0,14,...,%), 
v 
gab S. N. BERNSTEIN [2] einen Beweis des WeierstraBschen Satzes indem er 
zeigte, daB gleichmaBig auf [0, 1] 
lim B,, (x) = f(x). 
Man nennt B,,(x) das Bernstein-Polynom n-ter Ordnung der Funktion / (x); sein 
Grad in x ist héchstens gleich n. 

Einige Autoren haben sich in spateren Jahren mit dem Problem beschaftigt 
den Grad der Anndherung von f{(x) durch Bernstein-Polynome zu untersuchen, 
d.h. eine Abschatzung fiir die Geschwindigkeit zu geben mit der B,,(x) sich /(x) 
annahert wenn n-> oo. Es stellte sich heraus, daB man dabei eine GréBe w (6d) 
beniitzen kann, die definiert wird als 


w(d)= sup |f(x)—f(y)| (x, v€ [0, 1]) (4) 


jz—y|S6 


und die man nach DE LA VALLEE-PoussINn den Stetigkeitsmodul von /(x) nennt. 





222 P. C. SIKKEMA: 


Popovicivu [3] zeigte 1935, daB es eine Konstante K gibt derart, daB 


max |/(x) — B,(x)| $ Ko(n-4) (2) 


gilt bei jeder Wahl von f(x) ¢ C[0, 1] und fiir » =1, 2,.... 
Sei x die untere Grenze der Menge aller Konstanten K mit dieser Eigenschaft. 
Popoviciu bewies, daB x den Ungleichungen 





SxS} (3) 
22x 


_ 


geniigt. (Man s. auch NaTanson [5; S.174—175].) Ferner bewies er die fiir 
jede nicht-konstante /(x)¢C[0, 1] giiltige Relation 


max | f(¥) — B,(%)| 
fae w(n~*) = 1+ )22 (4) 





LORENTZ [4; S. 20] zeigte 1953, daB man (3) verschaérfen kann zu 
1SxS1t. (5) 





In dieser Arbeit werden wir beweisen, daB (5) sich weiter verscharfen la4Bt zu 
iS S 1,093785 (6) 

und auBerdem, daB (4) ersetzt werden kann durch 
max |f(¥) — B,(#)| ‘ 


= w(n-*) Py eV2x- 








2. Eine Abschatzung fiir |f(7) — B,,(x)| 
Wir werden folgenden Hilfssatz beniitzen: 
Hilfssatz 1. Es sei n=1. Dann gilt folgendes: 


a) Fir OSrSn und ~ <x<1 ist 
d(: = £) Pav x) =("7 '\x ath (4 — x)"-". (8) 


b) Fir OSsSn und OS*s— ist 


Beweis. a) Fiir r=0 ist 


” | paola) =("— j) a(t — ayn (9) 








r 


Sle —2)teanetermett—aF 


v=0 


was im Einklang steht mit (8). 








Grad der Approximation mit Bernstein-Polynomen 





Fiir 1 Sr —1 (was nur méglich ist wenn ”= 2) ist 


Jle- F)entr= ZO era—ar— PPT eae 


*=0 val 
i; "\ x wth 1 ayrr4'5)(" a " gt? (4— gyro ty 


+> _- - ‘) wth (4 — yn? 


, ~ ") x ath (4 — x) i. ") th (4 — x)®--1 (4 -— x) + x — 1} 


4 a ‘) th (4 — x)", 


Fiir ry =n ist x =1, also 


> (* — 2) Pao (e) = O1(1 — 2) bnolt) =(1— 2) ban(t) =O, 


»=0° »=0 
was wegen % Py =0 zur Richtigkeit von (8) fiihrt. 


b) Fir s=0 ist x =0, also 


2,|* 


v=0 


| Puy (%) =>) bro 0) = > bn0(0)= 








was wegen f-.) =0 zu (9) fihrt. 


Fir i Ss<n folgt aus den Voraussetzungen, daB 


x4] =(1—2) 2, 


n 


x —+| ?,,(x) = > {a —x)— 7 (*) ac — x)", 


v=S 





so daB gilt 





Durch die Substitution n —» = geht das letzte Glied iiber in 


n—s 


— %) —— 1— x)" x*-*. 1 
Dy At-9 sh (i) x)M x (10) 
Weil “—* <1 — x kénnen wir die Summe (10) berechnen vermittels Formel (8) 


mit 7 tenes x ersetzt durch »—s bzw. 1— x. Es ergibt sich dann, daB (10) gleich 


‘ — ‘ (4 — x)P—8+2 x8 = eo i) x8(4 — x)"—stt 


a 


ist. Hiermit ist Hilfssatz 1 bewiesen. 











224 P. C. SIKKEMA: 


Nun wollen wir eine Abschatzung herleiten fiir | f(x) — B,(x)|. Unter Ver- 
wendung der Definition (1) des Stetigkeitsmoduls w(6) von /(x) haben wir 











L(x) — By (2)| =| S42) bao (2) — YF (2) Pao) 
at v=0 (14) 
= > |42) — 1 (5)| bao) s Yoo ([x—F]) bool 





Es sei nun 6 eine Zahl die der Relation 0< 631 geniigt, die aber iibrigens fiir 
einen Augenblick willkiirlich gewahlt gedacht werden kann. Dann ist klar, daB* 


ofl: ZI) soonfe+[EGall 


Aus dieser Ungleichung und aus (11) folgt 
v 
n n — rm 
12) ~ By 00] Spt0)+ SAH tf 


i+ 3) at 
< 1 , 
So(){1+5> in 


wo das Akzent bedeutet, daB nur iiber diejenigen Werte von vy (0S ySm) sum- 











| Puy (x) 


| bno(x)b, 








j 
miert wird, wofiir |x me >. 

— nehmen jetzt 6=n~4. Es sei nun 7 die gréBte ganze Zahl, wofiir gilt 
vo - >n-4, Dann ist offenbar | 
r= nx — nf, (13) 
wenn |ja[ die gréBte ganze Zahl bedeutet, die kleiner ist als a. Wir sehen, dab 
v>0 wenn x>n~4, und weiter, daB immer r<u—1 weil x<1. 


Es sei ferner s die kleinste ganze Zahl mit - —x>n~*. Dann ist 


s=[nx+|n+1]. (14) 


Wir bemerken, daB sm wenn x<1—n~4 und daB immer s=1 weil x=>0. 
Mit Hilfe der Definitionen von y und s kénnen wir die Summe 2 im letzten 
Gliede von (12) schreiben in der Form 


>= 


wobei wir eine (oder beide) der Summen im rechten Glied gleich Null setzen 


4 i 


+2, (15) 


v=0 v= 





* [a] bedeutet wie iiblich die gréBte ganze Zahl die nicht gréBer als a ist. 














Grad der Approximation mit Bernstein-Polynomen 225 
wenn sie leer ist, also wenn <0 bzw. (und) s>». Beniitzen wir nun Hilfssatz 1, 
so folgt aus (12) und (15), daB gilt 
) |/(x) — B, (*)| 
<w “ft yn", ') x x7th(4 — x)" "+ ayeeret sh. 


s—1 


(16) 


Hierin ist ; ‘ ‘| =0O wenn r<0 und “ » <i =0O wenn s>n. Aus den Definitionen 


(143) und (14) von 7 und s folgt, daB die Ausdriicke 


(" ie ‘) xt (4— x)" (17) 
und 
ie (18) 


fiir diejenigen Werte von x unstetig sind, wofiir 


nx — \n bzw. nx+ \n +4 
gleich einer ganzen Zahl ist. Wir definieren nun die Funktion F,(x) in folgender 


Weise 
0 fir O<x<n-}, 


F,(x) =} in — ; 
(x) (” y ‘ eth —x)"" fir n-'$<xS1, ™ 


wo 7 als Funktion des x durch (13) bestimmt ist. Dann kénnen wir (18), wo s 
als Funktion des x bestimmt ist durch (14), ausdriicken in F,(x). Denn schreiben 
wir (18) wie seit oD 
— i n—s+1 ,s 
gm Te ai 
und setzen wir »—s =r’, so geht (18) iiber in 
~“— 7 __ y\r’ +1 an—r’ 
| yp )amartter, 
Wegen (14) haben wir ferner 
n—s=n—[nx+|n+1] =n—[n— (ny —|/n—1)] 
ny — \/n —1 wenn ny— \/n ganz, 
ny _ \/n wenn ny — \/n nicht ganz. 
Das bedeutet, daB 
n—s=|ny—Ynl, 
so daB r’ gerade gleich dem Wert von 7 in (13) fiir x =y ist. Folglich ist (18) 
gleich F,,(1— x). Mithin kénnen wir die Formel (16) schreiben in der Form 


|/(x) — B, (x)| S@(m-4) (1+ /n(F,(x) +F, (4 — 2))}. (20) 


3. Eine Abschatzung der Funktion F,,(x) 
Wir nehmen an, daB »2>2 und da8 x im Intervall n-~*<x<1 liegt. Dann 
existiert eine nicht-negative ganze Zahl rS< |n —Yn[ derart, daB 


1 r+1 
ane —<sS 21) 
wt "t ae (21) 














226 P. C. SIKKEMA: 


worin wir das letzte Glied durch 1 ersetzen, wenn 


ae 


mm oe & 23 >1. 


Tz 


Wir behaupten, daB F(x) im Intervall (21) monoton fallend ist. Sie ist namlich 
in jedem Punkt von (21) stetig und es ist 


aes — x)" = x (1 — x)" 44 — (m +4) x}, 


x 


und weil fiir => 2 in (21) gilt 


r+1 r+1 (1 Y n—Y 1 1 1 
= 
7 xs rte 4 z) ) —< — <0, (22) 


ist F/(x)<0 in jedem Punkt von (21) wenn «<1, wahrend F/(1) =0. Folglich 
ist F,(x) monoton fallend in (21). Dies bedeutet, daB in (21) gilt 


sup F, (x) = T,,, (23) 


*%€ (21) 


Tay = Fat + 3) 


=("7 A 7 re a te si (24) 
(n> 2, r=0,1,...,]n -— Yn[). 








wo 


Aus (23) folgt dann 
sup F(x) =maxT,, (n2=2), (25) 


0sxs1 


wo r die Werte 0,1,..., Ju — Vat durchlauft. 


4, Bestimmung von sup |/n {F,,(x) + F,(1—)} fiir n = 2, 3,..., 15 
Os*s1 


Wir beweisen zuerst, daB fiir »=>2 die Funktion F,(x) in (21) eine konvexe 
Funktion ist. 


Zuerst ist fiir 7 =0 


— vth4—xzy "= 7m x(1— x)" 
= (1 — x)""* {(n?+ n) x — 2n} 
Nun ist in (21) 
(2+ n) x — 2n> (n*+ n)—— ii = 20 =n(Jn + 7—— 2) >0, 


so daB F(x) konvex ist in (21) wenn r =O. 
Weiter ist fiir 7>0, was impliziert, daB n=3 vorausgesetzt werden muB, 


a y’t! (1 — rn cae x’ (4 _ i {(n? + n) x? — 2n(r + 1) x+ r(r + 1)} 








Grad der Approximation mit Bernstein-Polynomen 227 


Der Ausdruck zwischen Akkoladen im zweiten Glied ist fiir festgehaltene 2 und r 
cine quadratische Form in x, dic ihren Minimumwert fiir x = es annimmt. 
Wegen (22) liegt dieser Punkt links vom Intervall (21), so daB das zweite Glied 


1 


wachsend ist in (21). Sein Wert ist fiir « = y -+ : gleich 


; A+(y - )rtn—2)n+4 
= AG + Yn —dn)t tn Yn Yn 1)} 
> |/n (= /n — 1) >0, 


so daB F(x) auch konvex ist in (21) wenn r>0. 
Wir definieren nun 


®, (x) = n{F,(x) +F,(1—%)} (nw =2,3,...). (26) 
Da das zweite Glied symmetrisch in bezug auf x = 4 ist, gilt 
sup ®,(x) = sup ®,(x). (27) 
0<*x<1 O<*xS} 


> 


Die Unstetigkeitsstellen von ®, (x) sind diejenige Punkte wo F,(x) oder (und) 


F,(1— x) unstetig ist. Auf dem Segment 0< «<4 sind das die Punkte 
4 h 1 k a 
"SS und “ “<< (4, & = 0, 4, ...) (28) 


sofern sie auf dem Segment 0S x} liegen. 

Da F,(x) konvex im Intervall (21) ist fir 7=0,1,... ]n— Vl. ist F,(1— x) 
konvex in dem Intervall das in bezug auf x= symmetrisch liegt mit (21). 
Folglich ist ®,(x) auf 0< *<1 intervallsweise konvex, wobei die Intervalle die 
Unstetigkeitsstellen von ®,,(x) als Endpunkte haben. Ist nun a ein auf OS x<$ 
liegender Unstetigkeitspunkt von ®, (x), so bestimmen wir 


ry: @,(x) und im ®,, (x) (29) 


(wenn x =4 ein Unstetigkeitspunkt von ®, (x) ist, bestimmen wir nur den ersten 
Limes). 

Durchlauft nun a die Folge der Unstetigkeitspunkte (28) von ®, (x) sofern 
sie auf dem Segment 0S x<x4 liegen, so ist klar, daB der gréBte unter den 
Limites (29) wegen der intervallsweisen Konvexitat von ®, (x) gleich 


sup @, (x) 
OSS} 


ist. Auf Grund von (26) und (27) ist dann 
sup \/n {F,, (*) +f, (4 si x)} (30) 
Os*xsl 


diesem Wert gleich. 





iS) 
lv 
io 2) 


P. C. SIKKEMA: 





Das hier beschriebene Verfahren werden wir ausfiihren fiir 1 —6, weil es 
gerade dieser Fall ist der uns Formel (6) liefert. Fiir 1 =2,...,5,7,...,45 
bestimmten wir in véllig analoger Weise die Zahl (30). Die Resultate fiir » = 2, 
..., 15 findet man in der Tabelle. 


Der Fall n =6. 


Es handelt sich hier um die Funktion 
(x) =Vo{()eru—ar+(,5,)ea—ar} on 


mit r= ]6x— |/6[ und s=[6x+/6+1]. 


Ist r<0, so tritt das Glied mit 7 nicht auf. Die auf dem Segment 0S x<} 
liegenden Unstetigkeitsstellen von ®,(x) sind die Punkte 


1 h 1 k 


a > und 1— -- h=0; k=1,2,3 
ate ee ) 
d.h. die Punkte 

a4 =0,0017.  (k=3) 

ay = 0,2584 (k = 2) 

a3 =0,4082 (h=0) 

ay, —_ 0,4250 (k = 1) . 


Zwischen 0 und ag ist y<0, so daB dann das Glied mit 7 nicht vorkommt. Zwischen 
ag und a, und zwischen a, und ¢ ist 7 =0. Zwischen 0 und 4,, a, und a3, a, und ay, 
a, und a,, a, und # ist nacheinander s =3, 4, 5, 5,6. Wir finden dann 

3 4» %4 


lim @,(x) = \6 (3) a? (1 — a,)* = 0,0129 

lim ®,(x) = )/6 (3) a (1 — a,)3 = 0,0130 

xia, 

lim ,(x) = 6 (3) a’ (1 — a,)® = 0,0446 

‘ fe fS\ * _ 

lim ®4(x) = 6 (2) a® (1 — ay)? = 0,0078 

lim @,(x) = /6 (?) a® (1 — as)? = 0,0486 

lim ,(x) =] 6 (5) ay(1— a4)®-+ (5) af (1 — as)? = 0,0916 
x {as ° 1) 4 

lim @,(x) = 6 {(°) a4(1— a4)*+ (5) af (1 — a,)*} = 0,093785 
lim ®,(x) = | 6{(3) ay (1 — a4)®+ (2) af (1 — a4)} = 0,0459. 


Folglich ist 

















Grad der Approximation mit Bernstein-Polynomen 229 
so daB fiir 1 =6 gilt 
sup |/n{F, (x) +F,(1— x)} = 0,093785. 
OsxS1 
Wendet man dieselbe Berechnungsweise fiir » =2,..., 5 und »=7,..., 15 an, so 
gelangt man zu der Tabelle. 
Setzen wir nun 
max su n Fi(14— x 
n= 2,...,15 sup Vs (Fi x) + (1 ;= é, (32) 
G0 
b nn acnnnenenennecennnnsnnnesecernsenananecsmsuecnnamnnenannaee 
4,03 yf 
0,08 - 7 
307+ i 
008+ 1} 
G05 
0,0#\- te 
G03 
G02 - ! 
ar Z | 
Qy 0,1 2 a Of Ga; @y 25 
Fig. 1. Die Funktion ®,(x) auf OS*<} 
so folgt aus der Tabelle, daB 
E = 0,093785. (33) 


Dies ist ein abgerundeter Wert, dessen letzte Dezimale exakt ist. 


Wert von € ist 
zg — 20983 /6— 47022 


Der genaue 








46656 . 
wie man leicht mit a,= : om ee aachpriifen kann. 
'6 
Tabelle 
e Py ata + F, (1—*x)} 2 gittes yn {Fn (x) + Fa (1—+)} 
2 0,0858 9 | 00,0545 
3 0,075 5 10 | 0,064 4 
4 0,062 5 at 7 0,0739 
5 0,0737 12 0,084 0 
6 0,093 785 13 0,060 3 
7 0,065 3 14 0,0668 
8 0,078 5 15 0,074 5 











5. Abschatzung von T,,, fiir n=16 


Zur Bestimmung einer oberen Schranke fiir die in (23) definierten Gr6éBen 


T,,, liegt es auf der Hand die Differenz 


} i 


n,rt 


so (r =0,1,..., Js — Yn[ —1) 








230 P. C. SIKKEMA: 


zu betrachten. Es stellt sich heraus, daB es niitzlich ist, dic Variable 7, die nur 
diskreten Werten fahig ist, zu ersetzen durch die Variable og, die alle Werte des 


Intervalles 
O0SeSn—|/n-1 


annimmt. Wir betrachten dann die Differenz 


T,,(@ +1) — T,(@), (34) 


am I’(n) iS 4 Ori... 2. aT 


und welche Funktion definiert ist auf dem Intervall 0S osn—Yn. Die Sub- 
stitution 


wo 








g=o—|n (36) 
fiihrt dann (34) zur Differenz 
U,(o+1)—U,(c) (/nSa<n—1), (37) 
wo 
U, (0) = I'(n) ” Wha go? Vat (n — o)"—ot" (38) 


Po — Yn +1) P(n — 0 + Yn) 
welche Funktion definiert ist auf dem Intervall 
\/n Sogn. 
Setzen wir (38) in (37) ein, so finden wir nach einer kurzen Rechnung 


P'(n)n—"~* V, (a) 


T(o— /n + 2) T'(n _ o+ )n) (o+ ror (n ‘me a)" ot" 7 (39) 


U,, (6 +1) — U, (0) = 





wo 


V,(o) =(1+ = . )( ee ( ee ae - = 


(/nSo<n—4). 





Wir kénnen offenbar schreiben 


V, 


(0) — eFni (2) eit ens (2) (41) 


mit 





n 


Eyx(o) = (0+ 1— Yn) log (1 -—+} + tog (1 - 1). (43) 


Wir beweisen nun 
Hilfssatz 2. Fiir n=} ist 


Ey, (0) =log (1 +1" _) + (nw — 0 +) log (1 — —, (42) 


{E41 (0) — Ey(0)} <0 (lnso<n—1). 








Grad der Approximation mit Bernstein-Polynomen 231 


Beweis. Aus (42) und (43) folgt 

















d , ° \n _ 
ao E,, —~ Bas _ - +n on 
dg *us(0) — Bna(0)} (n—o—1)(n—o—1+]n) (—a)(n—o—1) 
_ oti-n _ \n oe oe 1 
a(o + 1) (o + 1) (o + , =¥a) log (1 =) log (1 ee ry r) 
7 Yn 1 |n me i 
(n—o—1)("—o—1+ mn) "-o-1  (n—o)(n—o-1) ot 
Vn \/n a. 1 
Tole+t) — o+nle+1—Ja) elt — 2) 57) 


Weil fiir a>1 gilt 


1 = 4 = 4 1 
0g (1 a Lar <2 a’ a—1’ 








ist sowohl 


wie auch 





so daB wir finden 
d 
annth —E 
z—{ n1(9) n2(9)} ag ere “err es 


- 1 ! 1 Aw 1 a = 
(n—o)(n—a—1) ' o(6+1) rev areas | al \) x 
f 1 1 

*Tin- a) (e—e- i) —o— t+ Po) bs o(o +1) (o+1—Yn) J 











Hilfssatz 3. Fiir n= 16 ist 
E,1(4n) — Eyo(#n) > 0. 


Beweis. Aus (42) und (43) folgt, daB 


Eys (4) — Eya(4n) =log (4 +214) + (Lm-+r) log (1 — 2) — 
—(3 n +1 —Yn) log (1 —— S| — log (1 — 2%). 


Fiir n=>8 ist jeder der vier auftretenden Logarithmen in eine Potenzreihe zu 
entwickeln. Wir finden dann die folgenden Abschatzungen a) bis d): 


! _2yn 2n Sn\n 16n/n — \n 
a) log (1 +21") 5 1-3 aye 3(n—2)® 4(n—2)% n—2 


_ 2Yn 2n (8 yn) nn 


~ e—2  (e—aye t\> — W—2) op’ 
16* 


(44) 




















232 P. C. SIKKEMA: 


woraus folgt, daB 








\ * a +4 m 
log (1 + 2b > Es (0 ey vith (n = 16). 
2 — 1/2: 2 1/2) 
b) Welt Sp = = 2 ay > ~ 5 7a Gel 
so dab 
2) 2 2 
log (1 et n(n—2) 





J 2)n 2n 8n \n 4n? | 
lnt2 7 mt? ? 3mtaet mraey: 


Beniitzen wir nun die soeben unter a) bis d) gefundenen Abschatzungen, so folgt 
aus (44), daB 


d) log (1 — 21") <_ 





2\n 2n 1 nn | 
{ 21s - mae 2 (in — 28] + 


+(e "+)n){— a — tt (fn t1—]n){ <r; aaar}— 


2\/n 2n 8n Vn 4n? Z 
-b +r (m + 2)? . 3 (n + 2)3 + et = N’ 





Bas (t)—Bua( $9) > 











wo 
Z = 45 n8 — 165 \/n + 134"® — 64n!4 yi + 44n4 + 144n3 yn — 
—153n* + 160n® Yn — 1023 n® — 64m |/n + 192m — 128 Yn + 128, 
N = Yn(n — 2)8(m + 2)4. 
Schreiben wir Z in der Form 
Z = (4n® — 160 /n) + (§n® + 13505 — 64m! n+ 44n*) + 
+ (1443 /n — 15303) + (160? \/n — 1025 n® — 64m |/n) + 
+ (192m — 128 Wn + 128), 


so lehrt eine einfache Rechnung, daB jede der fiinf eingeklammerten Formen 
fiir n= 16 nicht-negativ ist und wir sehen dann sofort, daB fiir n=16 gilt Z>0. 


Weil dann auch N>0, ist Hilfssatz 3 bewiesen. 
Hilfssatz 4. Fiir n= 16 ist 


U,(o+1)—U,(e)>0 (fnSoSin). (45) 
Beweis. Aus (39) folgt, daB (45) bewiesen ist, wenn gezeigt worden ist, daB 
V,(0)>0 (/nSoSn). (46) 


Die Giiltigkeit von (46) folgt unmittelbar aus (41), die Monotonic der e-Potenz 
und aus Hilfssatzen 2 und 3. ¥ 





Grad der Approximation mit Bernstein-Polynomen 233 
Hilfssatz 5. Fiir 116 ist 


Eny ($e +3) ") Lys ($n +3 )/n) ~20. 
Bewets. Aus (42) und (43) folgt 


En() Nn + )») -- Eys(># -} Sn) 
Sedo cers An Ue ed er 


—(£n— tpn 41) log (1 — a ) — tog (1 — yn ). 
5 . rn+h)n+1 tn +43)n4+1 











Kiir n21}3 ist jeder der vier auftretenden Logarithmen in eine Potenzreihe 
entwickelbar. Wir finden dann die folgenden Abschatzungen a) bis d): 






































a ue | 4+ | od z yn wf n 
) s| ti 4 Yn — 1 | 2n—z)/n—1 2(3n —4)n — yt 
—< 
(gn — 3 Jn —1)9 
b log (1— — L_—_— — : ‘ 
eed er Sy eer ee ame yee 
‘ 1 at 1 _1if< 1 
‘) log (1 agree , dn +4\n+1 2 (tn +3)n+1)’ 
2 2 | i 2 2 = (2 2 
in+t)n+1 2(dn+3)n)(3n+h)n+1) ’ 
d) log (1 — f )>— yn _ 
an+3)n+1 an+e)n+1 


n 


dn t+hnt1)(n—F)n $1) 





Beniitzen wir die seeben unter a) bis d) gefundenen Abschatzungen, so folgt aus 
(47), daB 
E,1($" = 3 \/”) ms E,9(3n + 3 \/n) 











é \n _ \/n 
Weare (n — /n — 2) TT +tet oe (n — /n — 2)? 
may ee n(n — 1) (n+ Yn) (n+ Yn + 2) (n — Yn)® N 


wo 
"N=(n+ \n + 2) (n — | n+ 2) (n -- \/n — 2)° (n+ |) (n — | n)* n(n — 1) 
und 
Z = (— 19" |» + 45 n? + 93 n® \n 95 n) + 
+ (— 21905 jn — 425 n5+ 33304 nm + 585 n4) + 
+ (— 39 n3 |/n — 1153+ 2n? |/n + 108n® — 80n |/n — 32 — 32). 








234 P. C. SIKKEMA: 


Offenbar ist N>O fiir »216 und wir sehen leicht, daB jede der drei einge- 
klammerten Formen im Ausdruck fiir Z negativ ist fiir »216. Damit ist Hilfs- 
satz § bewiesen. oe 


Hilfssatz 6. Fiir n= 16 ist 
U,(o +1) —U,(0)<0 (3n4+3)/nSo<n—1). (48) 


Beweis. Aus (39) folgt, daB (48) bewiesen ist, wenn wir die Richtigkeit von 
V,,(¢) <0 (in+3/n<o<n—1) (49) 


gezeigt haben. Die Giiltigkeit von (49) folgt aber sofort aus (41), die Monotonie 
der e-Potenz und aus Hilfssatzen 2 und 5. 


Hilfssatz 7. Fiir n>16 und $nSoShn+ 3\/n ist 


U, (a) <saynr G(n), (50) 


G(n) <0,5515 (n= 16, 17,...) 


wo 
und 
lim G(n) = 0. (54) 
n-—->0oo 
Beweis. Durch die Substitution 


o=9n+t\n (oS tS}) (52) 
wird (38) iibergefiihrt in 
1 —\__ P(n)n-"-* (dn + cYn)in-t-9 t1 ay — cyn)int ao 
U,(5 "+t )n)= I (tn — (1 — t) n+ 1) P'(hn + (1 — 1) Yn) 


Beniitzen wir jetzt die Ungleichungen 





puma _ 
ett -tVan< I(t) < ett bem 2x (¢>0), 


so ergibt sich nach einer elementaren Umrechnung 











1 -- P 4 
U,(5n+4Yn) < 2V22% expt + W, (oh, (53) 
wo 
W,,(t) = S nlog (1 in =) + {1—(1—1)|/n} log (1+ 1 4+ 
+ (11) Yorlog (1 — 7 — =n log (1+ hie i 4 i 
(54) 


+ {(1 — #) a — J} og {1-2 + i 


—{(1 — t) \n — 7} 08 {1 4: 


Wir sehen leicht, daB fiir »=> 16 jeder der sechs auftretenden Logarithmen wegen 
O0<tSX<} in eine Potenzreihe entwickelbar ist. So finden wir die folgenden Ab- 








Grad der Approximation mit Bernstein-Polynomen 235 


schatzungen a) bis f): 

















47? 47? Sr 
— sieeaee | eh ons Slits 
a) log (1 ~ )s - > 
b be 4 =) Be — 2t? St? 4r# 
@( \n n n 3n Vn ad 
c) log ( x) s— = — 28 
\/n \n n 3n\n 
d) Wir setzen 
8t—2— 47? 4—41 
n n\n sad (55) 


und dann ist 


log(it+?)=p—22/?+A4, 


| 0 (p= 0), 
de 


p* 
wee  ¥<%- 


Setzen wir in (55) #=0, so entsteht die folgende Gleichung fiir t als Funktion 
von ” 


wo 


2? — 4)r+1 ——— = 0. 

+i — eta 

Wir nehmen jetzt n=>16. Dann sei B jene Wurzel dieser Gleichung, die auf dem 
betrachteten Segment 0<1t< 3 liegt, so daB 


p=1——— (1+ 1+ 2m). (56) 
2)n 
Offenbar ist dann 
| =O (6StS3) 
<O (0StT<&), 
woraus folgt, daB 
0 (B<t<}) 
A= p a 
er. Mer: 


Ist nun S eine Menge von Punkten 1, die im Intervall 0<7t< 4 liegen und ist 
S* der Durchschnitt von S und der Punktmenge (0, 8), so ist auf S* 





p* \p*| 
ASN 30+) = tes SUFD) - 
, male  , maglel (57) 
a mip, ( FpY 3: 1— max AT’ 


Fiir S nehmen wir nun nacheinander die folgenden vier Punktmengen: 


I: OSt<¥5, 
IT: 86 = t<16: 
IIT: Ipst<1—#)2, 


IV: 1-4 y2StSz. 








236 P. C. SIKKEMA: 


Es a aus (56), da8 6 mit » monoton wachst und wir sehen, daB fiir n = 16 
ist B=$—3% 33 = 0,157, wahrend 


lim p=1-4)2. 


n-—>0o 


Folglich ist S*=S wenn S =I, bzw. S=II, wahrend 0c S*c S wenn S=III 
und S* ist leer wenn S=IV. Dies bedeutet, daB wegen (57) im Falle S =I gilt 


3 
1 otax, lal 


























Az 
Nias ony, \P| 
— pom 2 a 
{ max ESP AT Ly ax, 4 At} 
= A OSt< x5 n oorey, n\n 
= 3 18r — 2— 47] ese ae 
1— .max ma 
OSt< 95 n OSt<y, n\n 
Fiir n= 16 ist also 
2 4 \3 
ree 
Az +418 > ~ 4 
~ eee nm 
16 16.4 
Wenn S =II, ist fiir »=>16 analog 
Site ail ymax, lel? 6,660 
—_ 31-— "ns * 


wee, Pl 


Wenn S =III, ist fiir »=16 wieder analog 





Ip? 
1 sssete 42 3,780 

~ 

42-37 7a 


aaa max 
to St<1—4y2 


Wenn S=IV, ist A~0. 


log {4.—-24 = 9) 4 32) < 20 = 9) 42 
e) og {1 Va +i}< +— 














1 f a T) 4 2Vytf - 7 T) 4 ay, 
2(1 — 1) a(i—z)  2(t1— 72)? , 8(1—7)? —4(1 — 7)! 
f) log {1+ 7a b> 7 +e ae 


Beniitzen wir nun die unter a) bis f) gefundenen Abschatzungen, so finden 
wir aus (54), daB in den Intervallen I bis IV gilt 





Oy = + 58 
Rte + Beto gt te (58) 


W,, (7) < a%-+ 

o (fiir n= 16) 
t= —}5 in I bis IV 
a, =2 in I bis IV 


A, = — 1072+ 537 — 13 in I bis IV 








Grad der Approximation mit Bernstein-Polynomen 237 


a, = — 845+ 2474 — 2903 79+ 407?— 207+ 6F in I bis IV 


3,450 in I 
a, = — 6tt+ 813 — 207?+ 247 — Aare abi 
7,120 in III 
9,000 in IV 
a, = — 6§t + 63 in I bis IV 
t= —15 in I bis IV. 
Mit Hilfe dieser Werte und Formen fiir «,,...,«, finden wir nach einigen ein- 


fachen Rechnungen, daB die folgenden Abschatzungen giiltig sind: 


inI: oS —1~tg;, %= 6, t%<— 2,290, «,< 6% 
in II: oaS—4 7%, %<5,770, %<—3,460, «,<63 
in III: aS —28, a%<5,040, %<—4,900, «,<6 


iInIV: a<—28, a%<5,250, a<— 1,370, a5;< 4,800. 
Hieraus und aus (58) folgt, daB fiir n> 16 


65 2,290 65 13 

















inI:  W,(t)< — Steg Hr + a ac a nde 
inII: W,(r1)< $+ — +8 4 a — 3a + ae —4, (60) 
in III:  W,(t) < ek i a a - ee = —jt, (61) 
in IV: Walt) <—3 4% — HE 4 nee = -. ©) 


Fiir n= 16 sind die zweiten Glieder in (59) bis (62) monoton fallende Funktionen 
von 2, wahrend fiir ” = 16 sie nacheinander kleiner sind als 


—3+0,5310, —3+0,5462, —3+0,5400, —3-+0,5270. 
Dann ist fiir n=>16 
1 
on t+ Wnt) 





in I bis IV nacheinander kleiner als 


—3+0,5370, —3+0,5515, —3+0,5453, —3+0,5323. 


Aus (53) folgt dann, daB in der Formel (50) fiir n= 16 gilt G(m)<0,5515. AuBer- 
dem folgt aus (59) bis (62) die Giiltigkeit von (51). Damit ist Hilfssatz 7 bewiesen. 


Hilfssatz 8. Fiir n= 16 ist 
>0 fiir ¢= 0, 1,..., [$8 — a]; 
<0 firr=jin—3\/n+1[,...,]n—n[—1. 








238 P. C. SIKKEMA: 


Bewets. Wegen (24), (35), (36) und (38) ist 
T1412 — Tae = T(r +1) — T(r) 
=T,(o — +4) —T,(0— Yn) 
= U,(o +1) — U,(0). | 
Weil einerseits ¥ i | 
[an — Yn] + |nsin 
und andrerseits ; : 
Jan —3Yn+1[+ Jnzan4+h yn, 
Ju — nl —14+)n<n—-1, 
folgt aus Hilfssitzen 4 und 6, daB Hilfssatz 8 korrekt ist. 
Mit der in (33) stehenden Zahl & gilt 
Hilfssatz 9. Fir n= 16 ist 


2YnT.<& (r=0,1,...,]"— nf). 
Beweis. Aus Hilfssatz 8 folgt 


max Tl, = max Zane 
r=0,1,..., n—yn[ §n—ynsrsjn—jyn 
so daB wir haben 
ax T.,= max T. = max U, (0). 6 
enti, etal sal §n—ynSoshn—jyn n(Q) gnSosjint+hyn n (9) ( 3) 


Hilfssatz 7 liefert uns dann 


0,5515 
é , 
YH 


w<saliee (r =0,1,..., nm — Yn). 
Folglich ist fiir diese Werte von r 


0/5515 


e? 2x 





2)nT,,< = 0,09372 < &. 


Hilfssatz 10. Es gilt 


lim max Ins 


n—>0O r=0,1,.. 





— 
2e2 2x 


Beweis. Diese Behauptung folgt sofort aus (63) und Hilfssatz 7. 


6. Beweis der Formeln (6) und (7) 
Aus (20) und (32) folgt, daB fiir » =2,..., 15 und fiir jedes x« [0, 1] gilt 
|/(*) — B, (x)| Sw(n-*) {1+ §. (64) 
Ferner folgt aus (23), daB 
sup |” {F,(x) +F,(1—«)} =2)/nmaxT,, (m2 2) 


0sxs1 





Grad der Approximation mit Bernstein-Polynomen 239 
und Hilfssatz 9 lehrt dann, daB 
sup /n{F,(x) +F,(1—x)}<€ (n= 16). 


os*sSl 
Hieraus und aus (20) folgt, daB (64) auch gilt fiir n216. Fiir » =1 ist in (12) 
die Summe )”’ leer, so daB (64) auch dann gilt. Wegen (33) und (2) ist (6) damit 
bewiesen. ” 


Weiter folgt aus (25) und Hilfssatz 10, daB 


lim sup YnF,(x)<-—,_. 
A n(*) 2e? 22 


Hieraus und aus (20) und (2) zeigt sich sofort die Giiltigkeit von Formel (7). 


Literatur 


(1] Weierstrass, K.: Uber die analytische Darstellbarkeit sogenannter willkiirlicher 
Funktionen einer reellen Veranderlichen. Sitzungsber. d. Akad. zu Berlin 
1885, 633639, 789— 805. 

[2] Bernstein, S.N.: Démonstration du théoréme de WerERstTRASS fondée sur le 
calcul des probabilités. Charkow. Mitt. math. Ges. (2) 13, 1—2 (1912). 

[3] Popoviciu, T.: Sur l’approximation des fonctions convexes d’ordre supérieur. 
Mathematica (Cluj) 10, 49—54 (1935). 

[4] Lorentz, G. G.: BERNSTEIN polynomials. Toronto 1953. 

[5] Natanson, I. P.: Konstruktive Funktionentheorie. Berlin 1955. 


Mathematisch Instituut der 
Technische Hogeschool 
Delft (Holland) 


(Eingegangen am 23. April 1959) 








Numerische Mathematik 1, 240—252 (1959) 


On ““Two-Line’”’ Iterative Methods 
for the 
Laplace and Biharmonic Difference Equations 


By 


SEYMOUR V. PARTER 


1. Introduction 


Iterative methods for the solution of the Laplace difference equation have 
been studied extensively. In 1950 FRANKEL [4] gave explicit estimates for the 
rates of convergence of various “‘point’’ iteration schemes. More recently, “‘line’’ 
schemes have been studied (see [7], [7]). As was expected, these are better than 
the point schemes. 


In the case of the biharmonic difference equation the “‘line’’ methods have 
not been too successful. The unextrapolated Richardson method does not con- 
verge [9]. However, there are some successful methods, i.e., the alternating- 
direction method of ConTE and Dames [3]. 


The purpose of this note is to propose and discuss “two-line’’ methods*. It 
will appear that these can be reduced to two “‘single-line’’ equations, which can 
easily be solved. While these results could have been expressed in seemingly 
more general terms, the importance of these problems led us to this explicit 
discussion. However, the basic tools required to obtain our estimates on the 
rate of convergence have been developed in general terms and collected in the 
appendix. 


2. The equations and their solution 


Consider first LAPLACE’s difference equation for a rectangle. There are 
N =(p—1)(¢g—1) unknown quantities U;, 1571S p—1, 1S5j7Sq-—1. These 
satisfy the equations: 


(2.1) U,; = 8, (U4, ;+ U; 41, ;) + 0, (U; 5-1 ¥ U; 54 1) 


where Up ;, U, ;, U;,9, and U,, are the given boundary values, and 





sas Ay? sa Ax ane 
(2.2) ~™ 2(Ax®+ Ay?) ’ se 2(Ax®+ Ay?) ’ tt =3: 


We assume that either —1 or g—1 is even, say g—1. In this case we write 
the equations in terms of horizontal lines. 





* That such schemes would be desirable is not a new idea. The author was led 
to this study by HELLER’s remarks [6]. 








On ‘‘Two-Line”’ Iterative Methods 241 


Let X,=(U, ;), 7 =1, 2, ..., /—1, be the vector of values associated with the 
k-th horizontal line. Then, X =(X,), k=1,2,...,qg—1, is the vector of all 
unknowns. Let TJ, be the matrix of order » given by 
“0 4 * 
101 

101 


es 
+ 
N 

ll 


“4 
10 








Let L=I—#,T,_, and let M be the (g—1) x(g—1) compound matrix (whose 
elements are matrices of order $—1) given by 


£ =e 
—~#f L .-@! 


y 


(2.4) M= 
—6,I L 
then (2.1) may be written as 


(2.5) MX=Y 


where Y is determined by the given boundary data. 


This formulation leads us to refer to L as the “‘line’’ matrix of the problem. 
In general we will say that a matrix Q of the form 


Q=BU—«T,_), |al<2 


is a second order “‘line’’ matrix. Such a matrix is non-singular, and its inverse 
is easily obtained, see [J]. 
The matrix 
L —#@,I 
—O,I L 


will be called the “two-line” matrix of the problem. Let 


; oe. i —J 
(2.6) p Hey | P14) Af 


I 


We observe 


(2.7) PAL,P= 





(L+0,I) 0 z 
-. PT 


when both L+@,J and L —#@,I are “line” matrices. Thus, one can also invert 
a ‘‘two-line’’ matrix. However, we propose making a change of variables before 
beginning the calculation and returning to the original unknowns U,; only after 
completing the iterations. Namely, let P,_, be the compound matrix of order 


q 
3(q—1), P,_, = diagonal (P, P,..., P). Let 


X = P_,é. 











242 SEYMOUR V. PARTER: 


Then (2.1), or (2.5), takes the form 


rE, RE ; 

Ro Ly Ro 

(2.8) ; &é=L,E=n 
Ro 

Ry Ly | 








where Ly, is easily inverted. We consider the following three iterative schemes. 

1. Simultaneous displacement (Richardson). Let an initial guess £ be chosen. 
Then, if &=(V,) 1=4, 2,..., 2(¢—1), where V; is a vector of dimension 2(p — 1), 
E"*1 is obtained from &” by the formulas 


(2.9) Ly Vintt= — {Ro Viti + RoVtat +m 


with obvious modifications for /=1 and / = $(qg—1). 

2. Successive displacement (Liebmann). An ordering of the integers 1 through 
+(q¢—1) is chosen once and for all. Let an initial guess &° be chosen. Given 
V,", one solves for the V;"*?, in the order determined by the chosen ordering, 
from the equations 


(2.10a) Ly Vitt? = — {RU ViFi+ Ro Wzyt+m 
where 
Vt! if k preceeds / in the ordering, 
(2.10b) Ve = ' _ 
V," otherwise. 


3. Over-relaxation, successive displacement (extrapolated Liebmann). A para- 
meter w is chosen. An ordering of the integers is chosen as above, and an initial 
guess is made. One now solves successively for V;"+? from the equations 


n 1 , 
(2.41) L Lg Vintt=— {RI V$1+ ROVE + (1— +) LoVi*| +m. 


We now turn to the biharmonic difference equation in a rectangle. We 
consider the case which comes about when both the function and the first normal 
derivative are given on the boundary. Again there are N =(p—1)(g—1) un- 
known quantities U;;, 15*5p—1, 15j7Sq—1. These satisfy the equations 


y. o, 0 y 
U;,= : (U4,;+ U; 41,5) + a (U;, 5-1 + U; 541) ai 








17 R 
B2 
(2.12a) —F(U-2 5 +U;+2,4) — © (U,, 3-2 + U, 542) + 
ri) 
25g (Ua 4-1 + U;_4 541 Ss U3 41,3 1r U, 41,441) 
where 
(2.12b) R=1+ 28+ 265 


and U_,;, Uy ;, U5, Gary U,-1, Uo, Ug and U,4,, are given by the pre- 
scribed boundary conditions. 





On ‘‘Two-Line’”’ Iterative Methods 


243 


Again assuming (g— 1) is even, we write the equations in terms of horizontal 
—1)x(p—1) quidiagonal matrix given by 


lines. Let B be the (p 


Il 


(2.13) 


20, 
R 


1 








oY 
R 
20, 
R 








a; 
R 











1] 
Let C be the tridiagonal (6 —1) x(#— 1) matrix given by 
20 20 
Cc = (8, Tp-1 — I)h=—- =f. 


Let M, be the compound (g—1) x(g—1) matrix (whose elements are (p — 1) x 
(p—1) matrices) given by 


(2.14) 








ia © of 
C 8B € al 
az t @& £ «af 
(2.45) M, = . 
al 
BC 
q al C BY 
where _ a 
“=F. 
Then (2.12) may be written as 
(2.16) MX=Y. 


In this case we refer to B as the “line matrix’’ of the problem. In general 
we will say that a positive definite quidiagonal matrix is a fourth order “‘line 


matrix’. The inverse of such a matrix is readily obtained, see [3]. 


The matrix 


(2.17) 


B,= 
: a 


| 


is now the “‘two-line matrix’’ of the problem. We now observe 
(B—C) , = By, 
0 (B+C) 


where P is the matrix defined by (2.9). Again, both B—C and B+C are “‘line 
matrices’, and may easily be inverted. If we now let X =P,_, &, (2.12) or (2.16) 


becomes — 
By Ro 


Ry By Re 


P1B,P =| 


(2.18) é=B,é=n 
Ro 
q Ry Bo 
where, of course R, is different from the Ry of (2.8), and B, is easily inverted. 
Thus we may consider the same three iteration schemes for this problem. 

















244 SEYMOUR V. PARTER: 


3. The rates of convergence 


In order to study the convergence of these methods one is led to consider 
the following eigenvalue problems (see [2], [5], [6]). In the matrix (2.11) (or (2.18)) 
multiply each element which is the coefficient of V*** by 4 and call that matrix 
Q(A). Consider the values of A such that determinant Q(A) =0. For example, 
in the case of simultaneous displacement (RICHHARDSON), we have 








AL, RI 
R, AL, RT 
(3.4) =0. 
Ro 
Ry AL, 
Lemma 1. The iteration scheme converges if and only if 
Max |A| <1 | 


for all A such that det Q(A) =0. We define the rate of convergence of the iterative 
scheme as 
— log {Max | |}. 

An important feature of these methods is that they are ‘‘three-block’’ schemes, 
about which a great deal is known (see [5]). 

Lemma 2. In a three-block scheme, the rate of convergence of the method 
of successive displacements (and of the over-relaxation successive displacements 
method), is the same for all possible orderings at the blocks. 


Proof. For the ordinary successive displacement method, this is theorem 3 
of [5]. The result follows in the same way for the over-relaxation case. Hence, 
it is sufficient to consider the natural ordering of the integers. We now define 


Ap = Max |A| for the Richardson Method 
(3.2) A, = Max |A| for the Liebmann Method 
Ag = Max |A| for the extrapolated Liebmann Method. 


Lemma 3. In a three-block scheme, we have 


(3.3.4) Ay = ap 
and A, satisfies the equation 
(3.3 b) (Ag +@ —1)? =m ARAg. 


Proof. (3.3a) is theorem 2 of [5], and (3.3b) follows from a similar argument. 
(Also see [].) 

We now proceed to consider problem (3.1) for Ap. We state, without proof, 
the well known result: 

Lemma 4. If the matrix A is positive definite, and the matrix B is symmetric, 
the eigenvalues of det {AA + B} =0 are real. Moreover 

lal =Max 1624) 
Max | A| = Max “EAB” 

Finally, the eigenvectors span the space. 





On ‘‘Two-Line’”’ Iterative Methods 245 


Lemma 5. The eigenvalues of the matrix 7, defined by (2.3) are 


= 2 k=1,2,...,%. 


Proof. See [8]. 
Lemma 6. The matrices L+0,] and L—#,J are both positive definite. 


Proof. Direct computation. 


Lemma 7. The matrix B defined by (2.15) may be written as 








2 2 
(3.4a) BT} 23 G_,+1- 2%1+P, 
where BP, is positive definite. Or, 
(3.4b) B= [(8, 7,1 — 1)?+ 263] + 


and 


(4c)  B—C =~, [(8,T,-1- 1)? — 20, (8, Ty, —1) + 203) +P, 
(3.44) B+ C==[(8, T,1— 1)?+ 28, (8, T,_1 — 1) + 203] + A. 


Moreover, 
(B—C)—R and (B+C)—B 


are both positive definite. 

Proof. Direct computation. 

In view of Lemma 7 and Lemma 4 we can only increase Ap for the bihar- 
monic problem if we replace B+C by B—C— A, and B+C—R,, which we 
proceed to do. Having done this we observe that in both problems we are con- 
sidering a compound matrix each element of which is a 22 compound matrix, 
whose elements have the same eigenvectors and hence commute. The common 
eigenvectors are the eigenvectors of 7, _,. If we consider the vectors represented 
in terms of these eigenvectors, we reduce the problem to #—1 compound 
matrices, each element of which is a 2X2 matrix. Finally in view of Lemma 4 
and Lemmas 6 and 7 we may reduce the diagonal terms to 1’s. That is, for 
each eigenvalue », of 7, we are led to the eigenvalues (in the usual sense) of 
the $(¢ —1) $(q¢—1) matrices 


To RE 
R, 0 Ri 


Ry 
R, 0 | 








where the matrix R(k) is a 2X2 matrix determined by »,. 








246 SEYMOUR V. PARTER: 


In the case of the Laplace difference equation, we have: 
—1 


1 


7 1 4 
jij—o 


> 1,9, 


(3.6a) 


where 
(3.6b) L,=1— 20, cos. 
The eigenvalues of this matrix are 
Fi Sd 
A, = 0, “aa 


Hence we may apply Lemmas 4.1 and 4.2 of the appendix to obtain: 
Theorem I. For the Laplace difference equation 





(3.7a) Oy @-1) S Ar S Oger 
where 
n nm 1 
a aylon 5 + omer 
(3.7b) ie o 





a \2 : 
1— 28,cos—}) — # 
( y COS ry ; 
Proof. By direct computation 


(Ay = L}— #3 


B a 





and the result is clearly maximized by choosing k = 1. 
We are now able to extend the tables given by KELLER* in [7]. 


Table. Laplace Equation 


b b 
Let 6 —( s+ >| 
Ape 1-20 (point Richardson) 
n? 
AR® 1 — 70, ° (Horizontal line Richardson) 
x ; 
Are 1— > ° (Horizontal 2-line Richardson) 
y 
AL~1—22°O@ (point Liebmann) 
A, wi ae (Horizontal line Liebmann) 
y 
AL~i Xe (Horizontal 2-line Liebmann) 
y 
Ap = 1—2(2)'x2Ob+ 42°20 (point extr. Liebmann) 
2 
Apr i-~2 (5-) n@t ie (Horizontal line extr. Liebmann) 
y y 


2 \} 5 42? P ‘ : , 

*® Jpwi-—2z (-) xO i a © (Horizontal 2-line extr. Liebmann). 

y y 

* There seem to be slight mistakes in these tables, which we are correcting. 
** This is obtained when w is optimal, see [7] and [10}. 











On ‘‘Two-Line”’ Iterative Methods 247 


In the biharmonic case we find 














; s y 
Pas Ch 1 
-". 2 owe. 
(3.8a) R,=| * ° Vos — ck 
Cr 
Cr 1 2 
[2 Yor ef Ore J 
where 
by = (Li + 282] 
(3.8b) = — 2% 1, 


The eigenvalues of R, are complex, namely: 





_ (208 -—Lf)  . 2hL, 
iia 1=— Ty 40H =! Es aH 
The quantity |A| of (A.5) in the appendix is obtained as: 

q y ppe 
Thus 
Li — 205 
ar (t+ ||?) 28 >a 


Hence the conditions of Lemma 4.5 are met. Moreover, it is easily verified that 
the estimate given there is maximized when k =1. 
Theorem II. For the biharmonic equation 
285 |205 — Li| 2n 405|L,| |... 22 Lt |§ 
; Ars cos yi — |sin® ; 
a (Li + 485) for as | q+3 1 408 
Note. Unlike Theorem I, we do not have a lower estimate. However, we 


believe that this estimate is also asymptotically correct. 
In this case, it is necessary to go to second order in 1/f? and 1/q? in order 
to get a useful expression. For large # and g, we have 


cos Fe 1 — +E +(4 


22 1/22\2 1 (22\4 
cost wt (= i+ . 
q+3 2\q ° 24\ q 


We obtain for the horizontal two-line methods: 





dy 1 — for O 
R~ 2 
A, =1 ae. 2 
tas 1 0 +S 6 
y 





* This is obtained when o is optimal, see [7] and [/0}. 








248 St yMOuR V. PaRTER: 


These estimates, which show that the rate of convergence for the biharmonic 
equation to be an order of magnitude slower than for the Laplace equation, are 
consistent with FRANKEL’s original approximation [4]. 


As noted in the introduction, the single-point and single-line methods have 
not been found very useful for the biharmonic equation; the single-line Richardson 
method does not converge. 

Remarks. The methods given here can be extended to any region provided 
one can deal with pairs of lines of equal length. Thus with a little care, these 
methods may be applied to any region whose boundary consists of horizontal 
and vertical segments. Moreover, it can be shown from general considerations 
that these two-line methods always converge, for an arbitrary region, provided 
one uses the full two lines. Hence we may apply these methods to arbitrary 
regions — provided the ‘“‘extra’”’ points (at most two in number for each pair 
of lines) are properly handled. Of course, one may also use the ‘‘two-line”’ idea 
in alternating direction methods. Finally, we consider the labor involved. Once 
one has inverted the two distinct ‘‘line’’ matrices, and made the change of 
variables, the two line methods can only add to the labor (over the single-line 
methods) in the added complexity of the righthand sides of the iteration equa- 
tions. While this is not entirely negligible, the total work involved (for one 
sweep through the mesh) is appreciably less than twice that required for the 
single-line methods. 


Appendix 
Let R be a real 2X2 matrix. Let A, be the 2” x2m matrix, written as a 
compound matrix of order n, given by: 


. of e 
Ro R* 
(A.1) A,=| Ro R 
— 
4 R 0- 








We seek an estimate of the spectral norm of 4,, 
| Al = Max || 
where yu is an eigenvalue of A,,. Of course, we do not assume that RR’ =R’R. 


Case 1. The eigenvalue of R are real and distinct, say A, and A,. 


Let &,,&, be the corresponding eigenvectors of R’. Let »,, be the cor- 
responding eigenvectors of R. We normalize these vectors so that 


I|Eall? - ll7ell? = (Ee, &e) = (Me, Mm) = 1. 


It is well known that: 
(1,2) = (€2,m) = 0. 




















On ‘‘Two-Line’”’ Iterative Methods 249 


Moreover, one can choose &,, &3, 4, 42 so that: 


(1,2) = (™,%2) > 0 
(2, 2) ee (€,, 1) >0. 


Then, if 
A = (&,, 3), B= (no, §2) 
we have 
1 A 
&=— Baty 
(A. 2a) A ‘ 
&= == pat FM 
and 
A 
—— z fit ess 
(A. 2b) A PF 


a fit zee. 


Since &, and 7, are orthogonal, we choose them as basis vectors and represent all 
2n dimensional vectors in the form X =(X,), where X,=a«,& + ),y2. We are 
thus led to consider the eigenvalues of the matrix: 


~ ALT, @J, 
A. ’ A = 1“n n 
( 3) . IIe Ay ) 


where J, is the matrix defined in section 2, (2.3), and J, is the matrix of order x 
given by 














a a 
Oo 0 1 
(A. 3a) i= 7 
0 1 
| 0 0 0] 
and 
(A.3b) q=5(4—A). 
Consider now the matrix 
(A.4) ine es 
Gl, = AgT,, 








where J, is the identity matrix of order #7. Notice that A,, is obtained from 
B,,,, by deleting the first and last row and column. Notice also that B,,_, is 
obtained from A, by deleting the m-th and (+ 1)st row and column. 


Lemma 4.1. 


(4.1) By all S MAnll = [all SH Ba all, 
(4.1) [Ball = [Art Aal cos gE + | —aal [oost gt5-+ (p) 








Proof. (4.1a) follows from Lemma 4 and the above remarks. Since all the 
submatrices in B, commute, (4.1b) follows from a direct computation and Lem- 
ma 5. 











250 SEYMOUR V. PARTER: 


Lemma 4.2. If 4,=0, we have 
l4nl| S11, II. 
Proof. Direct computation, solving the second equation and substituting into 
the first. 
Case 2. The eigenvalues of R are complex, say A=s+it, and A=s— it. 
Let &, & be the corresponding eigenvectors of R7, while n, 9 are the correspond- 
ing eigenvectors of R. Again we normalize these so that 


El = El = Mall = Wall = 1. 


G 


In this case 





(n, €) =0, 
and we obtain: 3 
=AE+BE 
(A.5a) 7 
&=—An+B7i 
where 
(A.5b) B=),  A=— &)_ 
(&, ») (&, ») 
and 
(A. 5c) |B\?—|Al?=1, [ES ]*+|(E,m) |? =1. 
Choosing & and 7 as basis vectors we are now led to the matrix: 
=~ 7T 
(A.6) ¢. = Sy (A) 4a 
rr. £6 
where 
Sy A =A +A n 
(A.6a) (A) = AJ, J 


qg=A(A—J) =2i At. 


Moreover, one can readily see that we can transform this into the matrix 





lal7 5, (A)} 
If now one defines 
(A. 8) == Sn (A) |q| _ 
Hala 5,(A) | 
one obtains the following result. 
Lemma 4.3. 
| B.-a]| = |4,.|| _ |A,.|I = |B +all- 


Unfortunately we have not been able to obtain || B, ||. However, we are able 
to estimate || B,|| in one important case. 


Consider the eigenvalue equations: 
SX + |g] ¥ =X | 
lalX+S.Y=uY. 





On ‘‘Two-Line”’ Iterative Methods 251 


We readily obtain 

(A.9) lg]? ¥ =(" — S,) (u —S,) y. 

Thus we obtain 

(A.10a)  {u?—2sT,u+[—|g|?+] Al? 72 —4e(, — P,)}}Y¥+2 ist Q,Y=0 


where 


1 


(A. 10b) . . 


0, = 








1 


Here we notice an interesting fact: both Q, and the matrix which is the real 
part of equation (A.10a) are real symmetric matrices! Hence jm satisfies the 
quadratic equation: 
was MY ¥) = 28e(¥, Z¥) ~ [al2(¥, ¥) + 

+|Al?(Y, 772 Y) — 4#8(Y, Y)+ 42(Y, PY) =o. 


Moreover, we can readily verify that for (Y, Y) =14, 


(A. 12) (Y, 7, Y)?—(Y, 72 Y) so. 
Lemma 4.4. If Y is chosen so that (Y, Y) =1, then 
(4.4) || Ball S| s(¥, T ¥)| + 2] 4] [(JAl?+ 4) — 2(¥, 7, Y)?}4 


Proof. Solve (A.11) and use (A.12) plus the fact that P, is positive semi- 
definite. 
Lemma 4.5. If 
s2 
~gry (i+ |A|?)=1 
then 
By 4 


k+41 





‘ h 
|| B,|| S 2|s| cos + 2|4| [sin +|4/?| , 


Proof. The right hand side of (4.4) is a maximum for 





1 iy TY)? =—S— (14+ |Al? 
(YT)? spe (1 +1 41?)- 


Moreover, it is monotone increasing for 
s2 


oS4 (Y, RY) pe (1 +/Al*). 


However, since (Y, Y) =1, our result follows from Lemmas 4 and 5. 








252 


[7] 


[2] 
[3] 


[4] 
[9] 


StymMour V. PARTER: On ‘‘Two-Line’”’ Iterative Methods 


References 


Arms, R. J., L. D. Gates and B. ZonpEK: A Method of Block Iteration. S. I. 
A.M. 4, 220—229 (1956). 

BovEwiG, E.: Matrix Calculus. Amsterdam: North-Holland Publishing Co.1956. 

Conte, S. D., and R. T. DamMrEs: An Alternating Direction Method for solving 
the Biharmonic equation. M. T. A.C. 12, No. 63, 198—205 (1958). 

FRANKEL, STANLEY P.: Convergence Rates of Iterative Treatments of Partial 
Differential Equations. M. T. A. C. 4, 65—76 (1950). 

FRIEDMAN, B.: The Iterative Solution of Elliptic Partial Difference Equations. 
A. E. C. Research and Development Report NYO-7698, 1957. 
HELLER, J.: Simultaneous, Successive and Alternating Direction Iteration 
Schemes. A. E. C. Research and Development Report NYO-8675, 1958. 
KELLER, H.: On some Iterative methods for Solving Elliptic Difference Equa- 
tions. Quart. Appl. Math. 16, No. 3, 209—226 (1958). 

RUTHERFORD, D. E.: Some continuant Determinants arising in Physics and 
Chemistry, II. Proc. Roy. Soc. Edinburgh, Sect. A 63, 232— 241 (1949— 1952). 

Winpsor, E.: Iterative solutions of biharmonic differential equations. N.Y.U. 
Master’s Thesis, May 1957. 

YounG, D.: Iterative methods for solving Partial Difference Equations of 
Elliptic Type. Trans. Amer. Math. Soc. 76, 92—111 (1954). 


Indiana University 


Bloomington, Indiana 
(Received April 2, 1959) 











Numerische Mathematik 1, 253-—268 (1959) 


Newton’s Method for Convex Programming 
and Tchebycheff Approximation 


By 


E. W. CHENEY and A. A. GOLDSTEIN 


§ 1. Introduction. The rationale of Newton’s method is exploited here in 
order to develop effective algorithms for solving the following general problem: 
given a convex continuous function F defined on a closed convex subset K of E,,, 
obtain (if such exists) a point x of A such that F(x) <F(y) for all y in K. The 
manifestation of Newton’s method occurs when, in the course of computation, 
convex hypersurfaces are replaced by their support planes. 


The problems of infinite systems of linear inequalities and of infinite linear 
programming are subsumed by the above problem, as are certain Tchebycheff 
approximation problems for continuous functions on a metric compactum. In 
regard to the latter, special attention is devoted in §§ 27—30 to the feasibility 
of replacing a continuum by a finite subset in such a way that a discrete approxi- 
mation becomes an accurate substitute for the continuous approximation. 


It is to be pointed out that the basic idea of the algorithms below is not 
new, having been first used by REMEz [/, 2, 3,4]. Other authors who have put 
it to use in one form or another are NOVORDVORSKII-PINSKER [5], BEALE [6, 7], 
BrATTON [8], STIEFEL [9, 10], Wo re [11], STONE [12], and KELLEy [13]. 

The general problem described above is put aside until § 21 in order that 
the main ideas may be developed in a simpler setting. Consider, then, a matrix 
having a finite number, +1, of columns and at least +1 rows (the number 
of rows may be non-denumerable), 


Ai ...4, 4, 
oe... © 
A point x=(x,,..., x,) € EZ, is sought which will minimize the function 


F(x) =sup > Aj x; — };. 
i j=l 
The linear Tchebycheff approximation problem is already included by this 
problem. Note that any continuous convex function F defined throughout £,, 
may be represented as above via its support planes. These planes assume the 
form 








254 E. W. CHENEY and A. A. GOLDSTEIN: 


§ 2. Nomenclature. Consider the three matrices 
oe, a ain 1 net & 
A =| A... Az B={ A?...A2 1 C=| A?...A2 1 by 


The Haar condition on A is the requirement that every xn submatrix of A 
be non-singular. The solvency condition on A is the requirement that every 
(n+ 41) xX(n-+1) submatrix of B be non-singular. The normality condition on C 
is the requirement that every (m+ 2) x(m+ 2) submatrix of C be non-singular. 
The functions R* defined above are known as residual functions, and the hyper- 
planes in E,,,, whose equations are 

z = R(x) 


are residual planes. An edge is the intersection of any m residual planes. When 
the Haar condition is fulfilled, each edge is a 1-dimensional manifold in E,,,, 
along which z is not constant. When the solvency condition is met, each set of 
n-+1 residual planes has in common a single point called a vertex. Assuming 
the normality condition, no more than +1 residual planes can pass thru a 
vertex. 

The solvency condition is equivalent to the foliowing: given a point x€E,, 
and a set of rows {A”,..., A} from A, there corresponds a unique vector 
U=(Uo,...,%,) satisfying Lu,=1 and x«=2Xu;A%. Stated otherwise, each set 
of n+ 1 rows from A has an m-simplex for its convex hull. 

The notation o(/) denotes the number of elements in the set J. The notation 
H{A‘:i€1} denotes the convex hull of the set of points {A*:7€I}; ie., the set 
of all linear combinations 2'u,;A* where u;20, of{t: u; >0}< oo, and Lu;=1. 
The notation [u,v] will be used for Xu,;v;. The notation C{A‘:1€ 1} denotes 
the conical hull of the set of points {A‘: iC ]}; ie., the set of all linear combi- 
nations Yu;A* where u;=0 and ofi: u,;>0}<oo. A half-space in E,, is a set 
of the form {x:[a, x] =k}. A polytope in E,, is the intersection of a finite number 
of half-spaces. 

§3. Lemmas. A. Let K be a closed convex set in Hilbert space and u a 
point not in K. There exists an unique v€K closest to u. Furthermore, for 
xeK, 

. [x,u—v]S[v,u—v]<[u,u—v]. 


This theorem is well-known. See for example [14]. 

B. Let 2 denote a subset of E,, and x a point of H(Q2). There exists 2’ <2 
such that 0(Q’)<n-+1 and x¢€ H(Q’). If 2 is connected then there exists 2’ ¢ 2 
such that 0(Q’) <n and x € H(Q’). See [15, p. 9] and the references given there. 

C. The distance between two polytopes in E,, is attained. Thus, if bounded 


n 


below, the function F(x)= max }) A‘x,;— 6; attains its infimum in E,,. See [14]. 
1sism jy 


D. Let a matrix B result from an ” x” non-singular matrix A by replacement 
of its 7*" row by a vector 6. Let the columns of A be designated by C,,..., C,,. 
If A=[b,C,|)+0, then B is non-singular and the columns D,,..., D,, of its 
inverse are given by D,=A1C, and D;=C;—471([6, C;|C, (7 +7). 














Newton’s Method for Convex Programming 255 


E. The convex hull of a compactum in E,, is itself compact. 

Proof. Let 2 be a compactum in E,,, K its convex hull. By §3B to each 
x €K there corresponds a representation x= >’ t;(x) A'(x) withé; (x) =0, 2;t;(x)=1, 

i=0 

and A‘(x)€Q. If {x,} is a sequence in K then there exists by the compactness 
of Q and of O= {(tp, ..., t,):4;20, Xt;=1} a sequence 7, such that lim A'(x;,) =A 
exists in Q and lim (to (ix), «++» En (%j,)) = (to, ---,¢,) exists in Q. Clearly then 
2 t;A'€ K, proving the compactness of K. 

In a general Banach space, the convex hull of a compactum is totally bounded, 
by a theorem of Mazur, but not necessarily closed. 


§4. Lemma. Let EF denote an arbitrary linear space, 2 a set of linear func- 
tionals on E, and K the convex hull of 2. The system of linear inequalities 


(S) H(x)<0 = (f€2) 
possesses a finite inconsistent subsystem if and only if OC AK. 
Proof. (i) Assume 0€ K. Then an equation of the form 0=)'c,/; holds 
i=1 
where /;€2, c;>0 and X'c.=1. Thus for any xCE, 0=2c;f;(x), showing that 
the system, 


(S’) t(x)<0 (15iS<m) 
is inconsistent. 


(ii) Assume that system (S) has system (S’) as an inconsistent subsystem. 
Denote by N the set of solutions of 


fi(2)=0 (15i<m) 
and select x,,...,*,€E (nSm) so that N@x,@---@x,=—E. Since every xCE 


has a representation x= %9+ >)c;x; with x» EN, f;(x) =2c;f;(x;). The system (S’) 
j=1 
may therefore be written 


(S’) > Ajc; <0 (4<ism) 
j=1 


where Aj= /;(x;), and this system too is inconsistent in E,. We shall show 

that OC H{A},..., A"}=K’ where A'=(Ai,..., Ai). Indeed if this is not the 

case, then by § 3A, there exists a halfspace {x: [x, c]<0} in E, containing K’. 

This would make c a solution of (S’’). Thus 0€ K’, and an equation of the form 

0= d'e,A* must obtain with e;=0 and Ye,=1. From this we obtain easily 
i=1 

2'e;/;=0, which completes the proof. For infinite systems this lemma generalizes 


corollary 5 of [16]. 
§5. Lemma. Let 22 denote a compact subset of E,, and 6 a continuous real- 


valued function on 2. For x€ E,, define f(x) = sup [A, x] and F(x) = sup [4, x] 
AEQ AEQ 
— (A). Consider also two systems of linear inequalities 


(s) [A, 2] <0 (S) [4,2]<b(A)+M  (AEQ). 


18* 





256 E. W. CHENEY and A. A. GoLDsTEIN: 


The following statements are equivalent 
(i) F is bounded below. 

i) f is bounded below. 
ii) System (s) is inconsistent. 

) 

) 


(i 


(iv) 0€ H(Q). 


v) System (s) has an inconsistent subsystem comprising at most +1 
inequalities. 
(vi) For some M, system (S) has an inconsistent subsystem comprising at 
most + 1 inequalities. 
(vii) For some M, system (S) is inconsistent. 


Proof. (i)->(ii). 
F(x) = sup {[A, x|—b(A)}S sap. x|]— inf b(A) = f(x) — inf b(A). 


(i 
i 
i 
( 


(ii)—>(iii). If (s) is consistent and is satisfied by z°, then emp [A, 2°]<0, 


for the supremum is necessarily attained, 2 being closed and eented. But 
now /{(tz9) =tq>— © as t>+o. 
(iii) (iv). H(Q) is compact by §3E. If 0¢ H(Q) then by §3A, there is a 
halfspace {x: [x,z]<0} containing E’(Q). Thus z satisfies system (s). 
(iv)(v). If O€ H(Q) then by §3B, there exist A®,..., A” such that 
O€ H{A®,..., A"}. By § 4, then, the system 
(s’) [A*z]<0 (0SiSn) 
is inconsistent. 
(v)—>(vi). Assume system (s’) inconsistent. Put M=— max 6(A‘) then for 
all z, max {[A‘, z] —b(A‘)}=max[A‘, z] —maxb(A‘)>M. Thus the system 





(S’) [A4,.z]<b(4)+M (0SiS<n) 
is inconsistent. 

(vi)—>(vii). Trivial. 

(vii)—>(i). If (S) is inconsistent, then clearly F(x)=M for all x. 

§6. Lemma. Let S,>S,>... be a nested sequence of compact sets in E,. 
Then H(NS;)=NA(S,). 

Proof. Clearly 1S;<cM H(S,). Hence by the convexity of N H(S;), H(A S;)< 
 H(S,). For the converse, let x=(x,,..., %,) be a point of MA(S;). Then 
for each 7 there is, by § 3B a representation 


(t) ,,(+) 
¥ =i yy 
° where the (m+ 1)-tuple ¢") = (if), ..., “{)) lies in the set 
Q (40, os t,):t; 20, 2,t;= 1} 


and where ye S;. By the compactness of Q and of S, there exists a sequence 


of integers 7,, 72, ... such that dim, i) =t=(ty,..., ¢,) exists in Q and lim y") = y, 
k—> oo 


exists in S,. For each &, all er a finite number of ys, yi"), . lie in S, because 























Newton’s Method for Convex Programming 257 


the S,’s are nested. Since each S, is closed, y,€S,; thus y,ENS;. Hence 
x= Dit,y;, showing x€ H(N S;). Q.E.D. 
j=0 , 
§7. Theorem. Let 2 be a compact subset of E, and b a continuous real 
valued function on 2. Define R(A, x)=[A, x] —6(A) and F(x)=sup R(A, x). 
AEQ 


If there exists an x®°<E, such that F(x°)<F(x) for all x, then there exists a 
set {A°,..., A*} CQwithk<nsuch that inf max R(A‘, x) =F(x°) =M=R(A', x°) 
(0Si<A). mee 

Proof. Define for each 1=1, 2, ... the set Q,={4 €2: R(A, x°) > F(x) —-}. 

L 

Clearly the sets 2; are compact and nested. We shall prove that for each 7 the 
following system is inconsistent: 
(1) [A,z]}<0 (AEQ,). 


Indeed, if 2° satisfies (1), then define g= sup [A, 2°]. Since Q; is compact and 
A EQ; 
[A, 2°] is a continuous function of A, there is an A®°¢Q2; for which | A®, 2°] = q. 


Thus g<0. Let c=||z|| sup ||A |]. Since R (A, x°+ ; 2*)=R(A, °) + [4,2], 
AEQ \ 21¢ 


21¢ 
it is clear that for A €Q; we have RA, xo4—! 2) < F(x) + 7 while for A ¢Q,, 


2ic tc’ 














1 1 1 
R(A, 29+ at) < F(x) — 5 +h |All Ill S F(x) — 


1 
21 : 


Thus F (x + a5 2) <M, a contradiction. This shows that for all 7=1, 2,..., 
system (1) is inconsistent. By §5, 0€ H(Q,). By §6, 0c H( 2 )) Furthermore 
i=1 


N2Q;={A €Q: R(A, x°)=F(x)}. Now by §5 there exist A®,...,A* in NQ; 
such that the system 
[A°,z]}<0 (OS?Sh) 


is inconsistent, whence the theorem. A related result may be found in [/7}. 
§ 8. Remark. Let 2 denote a closed, bounded, connected subset of F,, and 


n 


6 a continuous function on Q. If infsup >) A;x;—6(A)sS —o, then 2 contains 
* AEQ j=1 
vanishing xn determinants; in other words, the Haar condition is violated. 


Proof. By §5, 0€ H(Q2). Since 2 is connected, by §3B a there exist points 
A1,..., A" in Q and non-negative coefficients c,,...,c,, fulfilling 2’c;=1 and 
Xc;A'=0. This latter equation exhibits a linear dependence among 4',..., A”. 


§9. Lemma. If A is an (w+1) Xm matrix of rank m and if the function 
/(x)=max[A', x] is bounded below, then the solvency condition follows. 


Proof. If the solvency condition fails, there exists a vector (Mu, ..., 4,) =O 


such that 
‘4 : ") ‘) 
t yee (: t 


thus [A‘, 4] =—wu), where OSiSm and where u=(m,...,%,). If ug=0, the 





258 E. W. CHEney and A. A. GOLDSTEIN: 
rank hypothesis is violated. If u)=+0, then either +4 or —uw is a solution of 
the inequalities [A‘, z]<0. Thus f(z)<0, whence lim /(¢z) = — oo. 

t+ 00 


§10. Lemma. Assume that the set {A':0<isn+1} satisfies the Haar 
condition and that 0€ H{A‘:0<i<n}. Then there exist unique indices, 7, and 
i, among {0,...,m} such that OC H{A':0SiSn+1, i+i} and — A"+1¢ 
C{A':0Si< n, t =+34,}. Furthermore, tg=1,. See Satz 5, p. 4, of [10]. 

Proof. Since 0€ H{A':0SiSn}, and since {A‘:0<i<n} satisfies the 
solvency condition, there exist unique coefficients u),..., 4, such that u;=0, 
Xu;=1, and Xu;A'=0. Because of the Haar condition u;>0. By §9, there 
exist unique coefficients v,,...,v, such that Xv,=1 and Lv;A'=A"t!. For 
any j << we have 0= A"*? — Dv, A‘ = A"*} — v, Ai — E'v, Ab = A"t! — 9,5" — — A‘ 
— J'v,A'=A*t}4 5" (“E —»,) A‘ throughout which, 2’ abbreviates isis: 

U; F 


| ee im =v; for all 7, then this equation will furnish a barycentric representation 


t] , 
of 0 in terms of {A': 0SiSn+1,i+)}. This will indeed be the case if 7 is chosen 
to fulfill ai. = = for all 7. If this value of 7 be denoted by 7%), we have in fact 
j i 

a = for all 7-7), due again to the Haar condition. The uniqueness of 7, 
Uiy i 
may be seen at once from the fact that any other choice will lead to a negative 
coefficient in the above representation of zero. For each 7 this representation 
is unique up to scalar multiplication due to the Haar condition. Similar argu- 
‘ments apply to 2. 

§11. Remark. Assume that the set {A!,..., A"*®} CE, satisfies the Haar 
condition. The system of inequalities 


(4) [Ai,z]<0 (1<5i<n+2) 
is inconsistent if and only if it possesses precisely two inconsistent proper sub- 
systems. 


Proof. The “‘if’’ part being trivial, we proceed at once to the “‘only if’’ part. 
If the system (1) is inconsistent, then by § 4, OC H{A': 4S1S<"+ 2}, and thus, 
by §3B, there exists an index iy such that OC H{A':1SiSn+2, 1+i,}. By 
§§5 and 9, the solvency condition holds for the set {A':1SiSn+2, 1+ ig}. 
By § 10, there exists a unique index 7, +7) such that 


OC H{A1Sisn+2, i+i}. 
By § 4, the inconsistent subsystems are obtained. 
§ 12. Remark. Consider two related matrices 


fw Me Mi nn Be 
A = (ata A* -(4 at.) 
in which the number of rows is finite or denumerable. If every (#+ 1) xm sub- 
matrix of A is of full rank then (A}, A?, ...)’ may be chosen so that in A* every 
(n-+1) x(w+ 1) submatrix is of full rank. 
Proof. Set Ai}=t', and expand a typical (w+1) x(m+ 1) determinant of A* 


by the elements of its first column, obtaining thereby a polynomial in ¢ whose 
coefficients are xn determinants from A which are not all zero by hypothesis. 














Newton's Method for Convex Programming 259 
The set S of all the roots of all the polynomials obtained in this way is an at most 
denumerable set. One may therefore select any ¢¢ S to obtain the desired con- 
clusion. 


§ 13. Theorem. Assume that the function /(x)= max [A', x] is bounded 


1sisn 
below, that m 2+ 2, and that the Haar conditions prevails. Then there exist 
at least m—wmn sets IC{1,...,m} such that o([)=n+1 and 0€H{At:i€]}. 
This bound is best possible. 

Proof. By §5 and the boundedness of f/ there exists a set J)C{1,..., m} 
such that o(J))=n+1 and 0€ H{A4':i€]1,}. By §5, the function max [A‘, x] 
is bounded below. By the Haar condition, the set {A': 7€ J} has rank n. By §9, 
then, the solvency condition is satisfied by this set. By §10, to each index 
7 Jo there corresponds uniquely an index 7;€ J, in such a way that 0€ H {A': 
i€I+j—i;}. 

Since 7 may be selected in m—n—1 ways, the number m — n is established. 
That this bound is best possible is shown in the next paragraph. Observe that 
it has been shown that to each 7 there corresponds an J ¢ {1,..., m} such that 
ieI, o)=n+1 and 0¢ H{At: ie}. 

§ 14. Example. Let positive numbers ¢,,..., 4,,_,, be selected. Define 


—1 0 «9 
o -1 a 
0 os —-§ . 8 
A= : ° ° ° 
0 0.0 sW—4 
ty i? fF ww € 
bn—n - ae a 


It turns out that (i) A satisfies the Haar condition; (ii) inf max[A‘', x] > — o; 
x t 


and that (iii) there are precisely m— n sets Icf, ...,m} such that o([)=n-+1 
and 0¢ H{A': i€]}. 

Proof. (i) Suppose that A contains a singular » xm submatrix B. Then a 
dependence 2'c;B;=0 exists among the columns of B. If exactly & of the first 
n rows of A are present in B, then this equation implies the vanishing of & of 
the coefficients c; as well as the vanishing of the polynomial 2’c;t’ at exactly 
n—k positive points. Since such a polynomial has at most » —k—1 changes 
of sign, it can have by DEsCARTFS'’ rule at most » — k — 1 positive roots. Thus c = 0. 

(ii) This follows at once, using § 5, from the observation that 

O€ H{A},..., A**}. 
(iii) If O06 H{A':i€ J} and o(J)=n-+1, then one may write 0= > k, A‘ where 
tel 
k,; 20 and Xk;=1. It may be seen at once from these conditions that all the 
first » rows of A must be among {A':7¢ 1}. The number of ways of obtaining 
a set of »+ 1 rows from A including the first is m—n. 
§ 15. Theorem. Define F(x) = max R'(x) and f(x) = min R'(x). If either 


of the numbers /,= inf F(x), fy=sup} (x) is finite, then the other is also, and 








260 E. W. CHENEY and A. A. GOLDSTEIN: 


these values are achieved at appropriate points; furthermore /, << J; i.e. 
max min R'(x) S min max R'(x). 
x L x t 


Equality occurs here if and only if there exists a point y and a number M satis- 
fying R'(y)=M (1Si1Sm). 

Proof. By §3C, if p> — oo, an x°CE,, exists for which =F (x). Define 
then I = {i: R'(x®) =F} and observe that the system of inequalities [A‘, z]<0, 
(¢<Z) is inconsistent. This implies that x® maximizes the concave function 
min R'(x). Thus Fy= sup min R'(x)>sup min R'(x)=f,. Here we obtain strict 


inequality unless R‘(x°) = F, for all 7. The arguments are the same if one begins 
with the assumption /)< oo. 

§ 16. Algorithm I. We are given a bounded subset 2 of E,, and a bounded 
real-valued function on 2 which we write A, for A€2. For each A €Q define 
R(A, x)=[A, x]—Agy. Also define F(x)= sup R(A, x). It is desired to obtain 


AEQ 
an x€E,, for which F(x) <F(y) for all y if such an x exists. Assume that in 


getting started a subset {A®,..., A'S ¢Q is known which spans E,, and satisfies 
0€ H{A®,..., A'}. In this connection, see § 18. At step & (k=/) in the algorithm 
there is given {A®,..., A*}¢Q. Select x* to minimize the function F*(x) = 
max {R(A', x):0Si<k}. (This may be accomplished by the algorithm of § 17, 
by the methods of [18], by linear programming, etc., etc.) Select A= A**!¢Q 
to maximize R(A, x*), or to come within 1/k of this maximum. Repeat this 
cycle, obtaining thereby a sequence x’, x'/*+1,.... The validity of this algorithm 
is established in § 22. 

§ 17. Algorithm II. We are given a subset {A!,..., A”} of E, satisfying the 
Haar condition and an m-tuple (d,,..., 5,,). It is desired to obtain a minimum 
for the function F(x) = max R' (x) where R'(x =DAjx b;. It is necessary to 


assume that infF(x) > — oo, or poten o¢H ae .., A™}. At each stage 


there is given a set I {1,..., m} of m+1 elements and a point: yCE,. Select 
7€{1,...,m} to maximize R’(y). Select y’ to minimize max R'(y’). Select 
h€I to minimize R*(y’). Define I'=I+j7—h, and start anew with I’ and y’. 
A starting procedure is given in § 18 and a formulary in §19. This algorithm 
is now in use on the IBM 704 computer, having been programmed by Mr. NORMAN 
LEVINE. 

The following remarks will assist in interpreting §19. In each cycle there 


is a set of indices I= {iy, 1,,..., i,}, a point x=(x,,...,*,) and a number %» 
such that R'(x)= — x, for i¢ J. This equation may be written x* = Db*, where 
x* = (Xp, X1,---, X,), D*¥=(b;,, ..., 6;,) and where D is the inverse of 


(i . 4) 
1 Ais... Ais 


In the formulary, /=0 signifies the problem of minimizing F(x) =max R‘(x); 


1=1 signifies the problem of obtaining a solution of F(x)<0; and /=2 signifies 
the problem of minimizing F*(x) == max | R*(x)|. 
































Newton’s Method for Convex Programming 2061 


§ 18. Starting Procedure for Algorithms. Assume the Haar condition and 
that the function F(x) = max R‘ (x) possesses a greatest lower bound M. By §3C 


there exists an x® such that F(x°)=M. Algorithm II requires, for starting, a 
set of rows {A*,..., A‘"} from the matrix having the property that the system 
of inequalities 

[44,2]<0 (0SjSn) 


be inconsistent. The existence of such sets (indeed, m —n of them) is guaranteed 
by § 13. To obviate the search for such a set, a new row A?® is adjoined to the 
matrix, and a number Jy is selected in such a way that 


(1) R°(x°) = [A®, ©] —b,< M; 

that is, x® remains a solution of the augmented problem. Toward this end, 

define A°= — >’ A‘, and suppose by is large enough to validate equation (1) above. 
i=1 


It is to be verified that the set {A®,..., A%} satisfies the Haar condition and 
the condition that the system 
(2) [A5,z]<0 (OSiSn) 


n 


be inconsistent. Indeed, supposing a non-trivial linear equation 0= >) u, A‘, the 
fet, 
Haar condition on {A}, ..., A"} implies that 7)=+-0 and that u)=+-0. The replace- 
n 


ment of A® in this equation by — ») A‘ will then yield an equation which exhibits 
i=1 
linear dependence among 4}, ..., A”. 

Finally, we obviously have 0€ H{A®,..., A}, showing (§ 4) that system (2) 
is inconsistent. : 

If the presence of A® vitiates the Haar or solvency condition at a subsequent 
juncture in the algorithm, the above technique may be repeated. Specifically, 
suppose that at a certain juncture the set J contains 0, and that the set {A‘: 7€ J} 
fails either of the two desired conditions. Then A® could be replaced by — >’ 4’, 
and the computations may proceed. ise 

Since there is no a priori knowledge of the number [A®, x°] -—- M, by is chosen 
in practice by trial, and the number 

M* = inf max R‘(x) 
x Osism 
is calculated by means of the algorithm. If, in the last cycle of the algorithm, 
O€ J, then condition (1) above is not satisfied by b,, and 6) must be increased. 
As b, increases, M* decreases, but if M ia min in (— b;), then by § 15, the (original) 
fenctiein F is not bounded below. 

Assuming the Haar and Normality conditions, the Tchebycheff problem of 

minimizing the function F(x) = max c | R(x )| has an alternate starting procedure. 


Let J be any set of m+ 1 indices, ‘aati let x* be a point which minimizes max | R'(x)|. 


Such a point may be determined by methods of [78], for example. Define 
R"+'— — Ri(x). The set [={i: 1<iS<2m, Ri(x*)=F(x*)} is a satistactory 
starting set. 








262 E. W. CHENEY and A. A. GOLDSTEIN: 


§ 19. Formulary for Algorithm II 

















































































































































































































Read In Starting Procedure 
(1 At... Ab 1>Af 10>b 
: x Ps ee 
‘a ; — >} At A? 1sjsn 
( Afv’...Am™ » ima’ j J 
(Dy, +++) Oe) (+ 1,..., + 1) —> (OQ... O) 
6) polytope (0, 1, ..., 2) — (tp... t) =f] 
1 = 41 inequality Ao... Ae -1 70 0 
2 minimax cgi ' ofa Dn From Matrix- 
° ° >|: ° Inverse 
An... An ea 
. 
(Eg) ' > > test D? >0? (0 Sj Sn) ——-| Error 
2 Di > Di Stop 
(0OSk Sn) yes 
Di — Di E; > Di . 
b, > big Compute 
n 
“> Oi, 2, Dk ©, b;,—> x» (0 Sk Sn) E 
n . | 
mAh x, —b; >R; (151 Sm) 
io 1=2 
v 
Select « so that Select « so that 
R, = R; alli R,| =|R;| alli 
Select 6 so that ie Fh 
Vp 27s 
all's test ae]? a test Oc]? 
no 
1=0 F ot l=? no yes 
1>u | Sgn R, > | Stop | 10b, > by 
Print 
pa? me | 
1=2 l=1 
| 
n mf | test p< oir 
Do + YAY DEE, spies 
k=1 
E ee 
De >y, (OSs Sn) 





























Newton’s Method for Convex Programming 263 

§ ZU. Algorithm III. Consider the problem of obtaining the minimizing point 

for the function F(x)= sup [A, x] —b(A), 2 being a countable compact set in 
AEQ 


E,, and } a continuous function on £2. Let the elements of 2 be enumerated: 
A}, A®,.... For each m let x) be chosen to minimize the auxiliary function 


7 (m) a , i 
F™ (x) max R(A » *). 


By § 7, there is a subset {A*, ..., A} of Q having the property that the minimum of 
F*(x) = max R(A%, x) 
Osjsn 


equals the minimum of F. Thus in the presence of the Haar condition, the 
sequence x), x)... is eventually stationary and gives the minimum point 
for F. The algorithm therefore converges in a finite number of steps. 

§ 21. Algorithm IV. Let 2 and A denote bounded subsets of E,, and b and c 
bounded real-valued functions on §2 and A respectively. Define the closed convex 
set K={x¢ E,:[B, x] Sc(B), all BEA}. Define the continuous convex function 
F(x)=sup{R(A, x): A€Q}, where R(A, x)=[A, x]—O6(A). It is desired to 
obtain, if such exists, a point y of K inducing a minimum value of F. Assume, 
in getting started, that finite sets 2°°Q2 and A®CA are available for which 
0€int H(Q°U A®). In this connection, see §18. At the m'" step there are given 
two finite sets Q"C 2 and A”CA. Define F”(x)=sup{R(A, x): A€ 2”) and 
K™={x: [B, x]}<c(B), all BEA}. Select x” to minimize F” on K”. In this 
connection, see § 23. Select A’€22 to maximize R(A, x”) within a tolerance 
of 1/m. Select B’€A to maximize [B, x”|—c(B) within a tolerance of 1/m. 
Begin anew with Q”"*?}=0Q"U{A'} and A”™*1=A”U{B’}. 

§22. Theorem. If A is non-empty then algorithm IV is effective in the 
sense that 

(i) F™ (x) z p=inf {F(x): «C K}; 

(ii) the sequence {x”: m=0, 1, 2, ...} possesses cluster points, each of which 
lies in K and minimizes F thereon. as 

Proof. We have finite sets 2° and A?® fulfilling 0 <int H(W) where W=2°U A?. 
Define #= inf max [w, x}. If #@SO0, then there exists an x®=0 such that 


I[z|[=1 w 

[w, x°}<0 for all w <W. Hence [w, x°}<0 for all w€ H(W). Since this is in- 
compatible with the fact that Oc int H(W), #> 0. 

Now assume A= q. Select v¢ K and define M=# max |sup c(B), F(v) + 

“BEA 

sup b(A)]. Let x be an arbitrary point satisfying || x||> MM. Select w®€ W such 
AEQ 
that [w®, x]= max [w, x]. If w®°€Q2°, then F(x) => [w®, x] — b(w®) =| x|| 0 


as A) > F(v)=>F°(v). On the other hand, if hea then [w®, x] —c(w®) => 


iF x \0- supe (B)> 0, so that x¢ K®. This argument establishes that inf F(x): 


vEK 


saad inf iw: (x), so that, due to the continuity ci F°, the infimum on the left is 
x€K®, ||x||- 

attained. Thus x® exists. By the same argument, inf F(x) = _ int . i) p<x 
The following inequality is obvious: F(x ”) y= inf F(x) Ss inf, | a +3 (4) 
F™ +1 (y"+2) <p, Since F(x") < F"(x") < p< F(v), and since v"€ K®, we know by 
virtue of the preceding paragraph “ts || «”"|| <M. Let y be any cluster point of 








264 E. W. CHeney and A. A. GOLDSTEIN: 


the sequence x°, x}, x*,.... If for some m, ye k™, then select 6>0 such that 
[B™, y] —c(B™) > 6. Select i<m so that ||x*—y||Sd/r where r= sap || Bl]. 


Then [B”, x*] — c(B™) = [B", yj —0(8") )+ [B™, xy] > 6—||B||-|| x Il 20, 
contradicting x'¢€ K‘'c K™. Hence y € n K”™. Now define G (x) = ~~ [B, x] —c(B) 


m=0 
If y¢K, then put d6=4G(y). eer m=1/6 so that || x” yl <r. Then 
G (y) <G(x") +65 [B’, x] —c(B’) + + +6<[B’, y]—c(BY) + 385 36=G(y), 
a contradiction. Note that we use hai the fact that ye K™*!. Thus ye K. 

It was shown earlier that F”(x”) is non-decreasing and bounded by #. Thus 
F”(x™) 7 p—}3e for some e 20. If e >0, select m=1/e so that || ,y—x”||<e/2q, 
where g= sup ||A ||. Then F(x”) > F(y) —e=[p—e. Take i> m so that || y — x'||< 

AEQ 


e/2q. Using R"+!(x)=[A’, x] —b(A’), we have R™+1(x™) — R™*+1(x*) >F(x™) — 
+ _ Fi(x)>F(x")—e—p+3e2Le. On the other hand, R™*+!(x™) — R™+1 (xi) 


<||A’|| - || 2" —x'||<e, a contradiction. Hence ¢=0, establishing (i). As for 
(ii), observe that every cluster point y of {x”} lies in K. Then as above, 
p< Fy) SF(x") + 6S R(x") +25 < R(x) 4+ 36S Fi(xt) + 35<p + 36, 
QO.E.D. 

§ 23. Algorithm V. Define F(x) = max R'(x) and G(x) = max CR (a ‘), where 


R'(x)=[A', x] —b; and 1<kSm. It is “dialed to obtain hes minimum of F 
on the domain K = {x € E,,: G(x) <0}, if such exists. It is assumed that {A!,..., A”} 
satisfies the Haar condition. 

In each cycle of the algorithm, a set J ¢ {1,..., m} is given such that 

(i) o(Z) =n +1 

(ii) OC H{A*:1 ET} 

(iii) JN {4,..., k} non-empty. 

(See § 18 for ‘starting procedure.) 

Obtain a point x and a number yu such that 

(iv) 7€EIN{1,..., Rk} > R(x) =p 

(v) €LN{k+1,..., m} > Ri(x) = 

If G(x) SO and F(x wn, then x is a solution. 

If G(x) >0, select pE{k+1,..., m} so that R?(x)>0. 

If G(x) SO and F(x) >, select PE {1,..., k} so that R?(x)> wu. In both the 
latter cases, select g€J so that OC H{A': i1€1'} where I'=IU {p}— {gq}. See 
§ 10 in this connection. Begin the next cycle with J’ in place of J. 

§ 24. Effectiveness of Algorithm V. Consider a set J satisfying (i), (i mi and 
(iii). Put = {a9,...,4,}, with {i9,...,¢,}C {1,..., R}and {7;,1,...,4,}¢ {R4-1,..., m}. 
We show first that the following matrix is non-singular. 

AP... 1 


Bs Ay ... Ai 1 
A+... A+ 0 


At ...A® 0 











Newton’s Method for Convex Programming 265 
Suppose, on the contrary, that there exists a non-zero vector u= (uy, ..., My +4) 
for which Bu=0. Then [A’, u*]=—u,,, for OS p<j and [A*, u*]=0 for 
1+1Spsun, where u*¥=(m,...,u4,). If u,,,=0 then the Haar condition is 
violated. If «#,,,+-0, then write, in accordance with (ii): O= }'A,A‘» with 
“A,=1 and 4,20. By the Haar condition, 2, > 0. Thus 0=[0, u]= )\A,[A’», uJ, 
a contradiction. Thus there is no difficulty in obtaining x and yu satisfying (iv) 
and (v). 

We show now that if G(x) <0 and F(x)=y then x is a solution. If not then 
there exists y such that '(y)<y and G(y) <0. Then the vector z= y — x satis- 
fies the inequalities 

(A‘,z)<0 «EIN G{1,..., R} 
(A‘,z)S50 t€IN{k+1,..., m}, 


and one obtains a contradiction as above. Hence x is a solution. 

If G(x)>0 or F(x)> yw then the algorithm specifies how to obtain a set J’ 
satisfying conditions (i) and (ii). We now show that J’ satisfies (iii) as well. 
If not, then o(JN {1,...,k})=1 and k< pm. Select yCK. Then [A‘, y]<); 
for k<ixm. Thus [A', y—x]S0 for tEIN{k+4,..., m} and [A?, y—x]<0. 
This contradicts property (ii) for J’. Thus there is no difficulty in obtaining 
an x’ and w’ satisfying 

[At, x’] —b,=y' tEl'N{,..., R} 
[A', x] —b; =0 tel’ N{k+1,..., m}. 


By subtracting, we find 
[A‘, x’ —x]=p'’—p iEINI'N,..., k} 


[A', x’ — x] =0 tEINI'N{k+41,..., m} 
[A?, x’ —x]<p’—p when PE f{i,.-.., k} 
[A?, x’ — x] <0 when p€{k+1,...,m}. 


Since O€ H{A':7€1'}, w’—u>0. Thus in proceeding from one cycle of the 
algorithm to the next, the value of w increases. Since there are but a finite 
number of sets J satisfying (i), the algorithm will terminate with a point x satisfy- 
ing F(x) =u and G(x)S0. This completes the proof. It may be observed that 
if K is empty the algorithm will indicate this fact by the impossibility of comput- 
ing x and uw in some cycle. 

§ 25. Algorithm VI. It is desired to obtain x*¢ E, minimizing the function 
F(x) = max R'(x). This algorithm has the feature that at the k-th step, an 

sism 

upper bound 7, and a lower bound s, are provided for the unknown number 
p = inf F(x); furthermore, 7,\ ~ and s,,7 ~. The desirability of such a feature 
was pointed out in [9]. 

Assume now that the Haar and normality conditions are fulfilled and that 
F is bounded below. For any J {1,..., m} define F(x) = max R'(x). In each 
computing cycle there will be given a point xc E,, and a set Ic {1,..., m}, the 
latter satisfying o(/)=n+1and0€H {A':i¢J}. Define then J = {j: R’ (x) =F (x)}. 








266 E. W. CHENEY and A. A. GOLDSTEIN: 


Select = to minimize F,,,;. If z=, then z is a solution. Otherwise proceed to 
select an x’ which will minimize / on the ray {x+t(z—x):t=0}. Define I’= 
{icIUJ: R'(z)=F,U,(2)}. Begin anew with x’ and I’. See §18 for starting 
procedure. 

§ 26. Effectiveness of Algorithm VI. The proof will be given in six parts. 


(1) The point x’ is well-defined because on the indicated ray, F is a polygonal 
function which is bounded below and thus attains its minimum (§ 3C). 


(2) If x=-z then F(x’)<F(x). To prove this, observe that for each 7€/, 
R' (2) SFC 7(2)<Fruj (x) SF (x), the strict inequality being due to the uniqueness 
of z (a consequence of the Haar condition). Thus for small t> 0, F(x+¢(z—x))< 
F(x). Note that F(x) has then the properties claimed above for 7,. 


(3) I’ satisfies the conditions laid down for J. To prove this, observe that 
the system of inequalities [A‘, d] <0, (i€ J’) is inconsistent. Thus 0€ H {A‘:1€ I’}. 
By the Haar condition, then, o(/’) >. By the normality condition, o(/’)< +1. 

(4) If x=z then z is a solution. Indeed if x=z, then x minimizes F;,;. By 
the uniqueness of z, F; , is increasing in a neighborhood of z. Now F(x) = F,_,;(*) 
and F;,;SF always. Thus F is increasing in a neighborhood of x, and x must 
be a solution. 

(5) If x’ +2’ then F;(z’) > F(z). To establish this, note first that minF,S 
min F,,,7=minf;. If equality occurs here, then z= z’ due to uniqueness of z. In 
this event, x’=.x’’ because x, x’, z are colinear, as are x’, x’’, 2’, so that the 
minimum of F on the ray xz occurs with the minimum of F on the ray x’2’. 
Hence x’=z’ as well. Note that F(z) has therefore the properties claimed 
above for s,. 

(6) There are but a finite number of sets J in {1,..., m}, and in each cycle 
of the algorithm a new J occurs because of (5). Thus the algorithm terminates 
at some cycle in which x =z, such a point being a solution, by (4). This concludes 
the proof. 

§ 27. Approximation in C(7'). Let 7 denote a compact metric space and 
C(T) the linear space of all continuous real-valued functions defined on 7. For 


any subset S of T define |S|= sup inf d(s,¢t), and define a semi-norm in C(T) 
teT ses 
by writing ||/||; = sup |/(s)|. Let M@ denote a given subset of C(7) and ga fixed 
seES 


element of C(T). The problem of approximating g by elements of M is to be 
investigated. Specifically, given e> 0, it is desired to obtain by a simple algorithm 
an /,€ M fulfilling the condition 


Ifo — 8 llr — <p = inf || fe llr 





Since in practice it is easier to compute the semi-norms || ||; instead of || | 
it is advantageous that the following principle be valid. 

(P) To each ¢>0 there corresponds a 6 >0 such that p—e<||fyp—gl|sS 
| fo —g\|r<p+e whenever |S|<6 and || fo—8||s< 6+ inf lf—ells- 


§ 28. Lemma. Let M designate a finite dimensional subspace of C(7). There 
exist two constants g>0 and Q>0 such that ||/||;-< Q whenever |S|<q and 
lf—gllsSp+1. 


T> 











Newton’s Method for Convex Programming 267 


Proof. Let {f,,---,f,} be a basis for M, and define for each ¢€ T an n-tuple 
A(t)=(f(d), ---,f,()). Due to the independence of the /,’s, the set {A(t):1¢T} 
has a zero orthogonal complement in E,, and thus contains a basis {A(t,), ..., A (¢,)}. 
Hence the xm determinant whose entries are A,;;=/,(t;) is non-zero, and by 
the continuity of the determinant function, there exist positive numbers 6 and r 


such that |det B;;|=r7 whenever max | B;;—A ij} 9. Select g>0 so that 
‘7 

lfi(s) — (t)|S6 whenever d(s,t)<q. Assume |S|<q, ||f—g||;S +1, and 

f= Sa For each 7 select s;€S satisfying d(s;,t;)Sg. Clearly |/(s;) —g(s,;)|S 


p+. Thus | > 4,/;(s;)|SPo+1+|l|gllr=c. Since d(s;, t;) <q, |f,(s;) — hen 
and ident ;))| 27. By Cramer’s Rule, each |x,| has an upper bound d= 
cn! ee *, whence ||/\|7S ¥0|%;| - lAillr S42 DA llr = Q. 


§29. Theorem. Principle (P) is valid under either of the two following 
conditions: 


(i) M is an equicontinuous subset of C(7); 

(ii) M is a subset of a finite dimensional subspace of C(7). 

Proofs. (i) Given e> 0, take 6< é/} such that | f(s) —f(¢)| <e/3 and | g(s) —g (t)| 
<e/3 whenever /€ Mand d(s,t) <6. Suppose| S| <dand||/o—glls<4+ inf || /—glls. 
Select ¢¢ T so that eee Select s€S so that ‘a th<d. 
Then ~S||fo— ye Poor Fi (t)| S| fo (4) — fo(s)| + |fo(s) — 8 (s)| +] (s) g(t)|S 
€/3+||fo—8 lls + €/3 <e+ int tm Asset? i ai —2e3S lfo— gllsS 
Ilfo —gllr<e+?. 

(ii) By the Lemma, if 6<min(1, 9), Is|<o, and ||f, — gl|sSo+ inf lif—ells, 


then ||/)||;-SQ. Thus the approximating functions are taken from a bounded 
subset of a finite-dimensional subspace of C(T), which is therefore equicontinuous. 
Hence (ii) reduces to (i). ' 


§30. Examples. A. Let T=[0,1] and let M consist of all functions on T 
having a first-derivative bounded in modulus by a constant k. Then M is equi- 
continuous since |/(s) —/()|=|/’(v)| -|s—t|S&|s—t|. This M is infinite di- 
mensional, containing the independent set {e*: 0S aS} logk}. 

B. Now let U denote an arbitrary (non-topological) set and B(U) the Banach 
space of all bounded real-valued functions on U, normed by ||@||= sup | y(w)]. 

ucU 


Let N designate a finite dimensional subspace of B(U) spanned by {9,,..., ¢,}- 
Let # denote any fixed element of B(U). We seek y* € N such that |/p* —#|| < 
|| —@|| for all p€N. This problem may be treated by Algorithm I after re- 
casting the problem as follows. For each «€ U, define an n-tuple A“= (g,(u), ..., 
Pn (%)). We then seek x* € E,, which minimizes the function F(x) = sup |[A“, x] 
B(u)|. vias 

It is also possible to recast the problem into the form of § 27. Define bY= 
(71 (%#), --., Py (), ®(u)) and denote by T the closure of the set {B“: w¢€ U} in 
E,,.,- On E,,,, define the functions /;(y)=7-th component of y, 151+ 1. 
Clearly T is compact and /;€ C(7). It turns out that for each x€ E,,, || 3) x,9;—-#\lu 
=||oxif;—frsallr. Thus by § 29, Principle (P) is valid. 








268 


[1 


bd 


[2] 
[3] 


[4] 


[6] 
[7] 
[8] 
[9] 


(10) 
(11) 
[12] 


[13] 


(14) 
[15] 
(16] 
7) 


[18] 





E. W. Cueney and A. A. GOLDsTEIN: Newton’s Method for Convex Programming 


References 


Remerz, E.: Sur un Procédé Convergent d’Approximations Successives pour 
Determiner les Polynomes d’Appproximation. C. R. Acad. Sci. Paris 198, 
2063 —2065 (1934). 

ReEMEZ, E.: Sur le Calcul Effectif des Polynomes d’Approximation de TscHEBY- 
SCHEFF. C. R. Acad. Sci. Paris 199, 337—340 (1934). 

Remez, E. Ya.: On the Method of Best, in the Sense of TCHEBYCHEFF, Approxi- 
mate Representation of Functions, (Ukrainian), Kiev, 1935. See also Refe- 
rence 4 below. 

ReEMEz, E. Ya.: General Computation Methods for Chebyshev Approximation. 
Problems with Real Parameters Entering Linearly. Izdat. Akad. Nauk 
Ukrainsk. SSR. Kiev, 1957. 454 pp. See also MR 19-580 (Russian). 

Novopvorskil, E. N., and I. SH. PINSKER: On a Process of Equalization of 
Maxima, Uspehi Matem. Nauk, N.S. 6, 174—181 (1951). See also SHENITZER, 
A.: Chebyshev Approximations. J. Assoc. Comput. Mach. 4, 30—35 (1957), 
MR 13-728. 

BEALE, E. M. L.: An Alternative Method for Linear Programming. Proc. Cam- 
bridge Philos. Soc. 50, 512— 523 (1954). MR 16-155. 

BEALE, E. M. L.: On Minimizing a Convex Function Subject to Linear Inequali- 
ties. J. Roy. Stat. Soc., Ser. B 17, 173—177 (1955). 

BRATTON, DONALD: New Results in the Theory and Techniques of Chebyshev 
Fitting. Abstract 546-34. Notices Am. Math. Soc. 5, 248 (1958). 

STIEFEL, EpUARD L.: Numerical Methods of Tchebycheff Approximation, 
pp. 217—232 in R. E. LANGER (ed.), On Numerical Approximation. Madison 
1959. 480 pp. 

STIEFEL, E.: Uber diskrete und lineare Tschebyscheff-Approximationen. Nume- 
rische Mathematik 1, 1— 28 (1959). 

WoLFE, PHILIP: Programming with Nonlinear Constraints. Preliminary Report, 
Abstract 548-102. Notices Am. Math. Soc. 5, 508 (1958). 

STONE, JEREMY J.: The Cross Section Method, presented orally at Symposium 
for Mathematical Programming, RAND Corporation, March 19, 1959. 

KELLEY, JAMES E.: A General Technique for Convex Programming, presented 
orally at Symposium on Mathematical Programming, RAND Corporation, 
March 19, 1959. 

CHENEY, E. W., and A. A. GoLpstEIN: Proximity Maps for Convex Sets. Proc. 
Amer. Math. Soc. 10, 448—450 (1959). 

BONNESEN, T., u. W. FENCHEL: Theorie der konvexen K6rper. Berlin 1934. 

Fan, K.: On Systems of Linear Inequalities. In: Linear Inequalities and Related 
Systems, ed. by H. W. Kuun and A. W. TUCKER, pp. 99—156. Princeton 
1956. 

Bram, JosEPH: Chebychev Approximation in Locally Compact Spaces. Proc. 
Am. Math. Soc. 9, 133— 136 (1958). 

Go.psTEIN, A. A., and E. W. Cueney: A Finite Algorithm for the Solution of 
Consistent Linear Equations and Inequalities and for the Tchebycheff 
Approximation of Inconsistent Linear Equations. Pac. J. Math. 8, 415—427 


(1958). 
Convair Astronautics 


Department 591.10 
San Diego 12, California 


(Received July 3, 1959) 











Numerische Mathematik 1, 269—271 (1959) 


A Note on Two Problems in Connexion with Graphs 
By 
E. W. DIJKSTRA 


We consider » points (nodes), some or all pairs of which are connected by a 
branch; the length of each branch is given. We restrict ourselves to the case 
where at least one path exists between any two nodes. We now consider two 
problems. 

Problem 1. Construct the tree of minimum total length between the nodes. 
(A tree is a graph with one and only one path between every two nodes.) 

In the course of the construction that we present here, the branches are 
subdivided into three sets: 

I. the branches definitely assigned to the tree under construction (they will 
form a subtree) ; 

II. the branches from which the next branch to be added to set I, will be 
selected ; 

III. the remaining branches (rejected or not yet considered). 

The nodes are subdivided into two sets: 

A. the nodes connected by the branches of set I, 

B. the remaining nodes (one and only one branch of set I1 will lead to each 
of these nodes). 

We start the construction by choosing an arbitrary node as the only member 
of set A, and by placing all branches that end in this node in set II. To start 
with, set I is empty. From then onwards we perform the following two steps 
repeatedly. 

Step 1. The shortest branch of set II is removed from this set and added to 
set I. As a result one node is transferred from set B to set A. 


Step 2. Consider the branches leading from the node, that has just been trans- 
ferred to set A, to the nodes that are still in set B. If the branch under con- 
sideration is longer than the corresponding branch in set II, it is rejected; it it 
is shorter, it replaces the corresponding branch in set II, and the latter is rejected. 

We then return to step 1 and repeat the process until sets II and B are empty. 
The branches in set I form the tree required. 

The solution given here is to be preferred to the solution given by J. B. 
KRUSKAL [7] and those given by H. LoBERMAN and A. WEINBERGER [2]. In 
their solutions all the — possibly 4m(m—1) — branches are first of all sorted 
according to length. Even if the length of the branches is a computable function 
of the node coordinates, their methods demand that data for all branches are 
stored simultaneously. Our method only requires the simultaneous storing of 








270 E. W. DijKsTRA: 


the data for at most branches, viz. the branches in sets I and II and the branch 
under consideration in step 2. 


Problem 2. Find the path of minimum total length between two given nodes 
P and Q. 


We use the fact that, if R is a node on the minimal path from P to Q, knowledge 
of the latter implies the knowledge of the minimal path from P to R. In the 
solution presented, the minimal paths from P to the other nodes are constructed 
in order of increasing length until Q is reached. 


In the course of the solution the nodes are subdivided into three sets: 


A. the nodes for which the path of minimum length from P is known; nodes 
will be added to this set in order of increasing minimum path length from node P; 


B. the nodes from which the next node to be added to set A will be selected; 
this set comprises all those nodes that are connected to at least one node of 
set A but do not yet belong to A themselves; 

C. the remaining nodes. 

The branches are also subdivided into three sets: 

I. the branches occurring in the minimal paths from node P to the nodes 
in set A; 

II. the branches from which the next branch to be placed in set I will be 
selected; one and only one branch of this set will lead to each node in set B; 


III. the remaining branches (rejected or not yet considered). 


To start with, all nodes are in set C and all branches are in set III. We now 
transfer node P to set A and from then onwards repeatedly perform the following 
steps. 


Step 1. Consider all branches 7 connecting the node just transferred to set A 
with nodes R in sets B or C. If node R belongs to set B, we investigate whether 
the use of branch r gives rise to a shorter path from P to R than the known 
path that uses the corresponding branch in set II. If this is not so, branch 7 is 
rejected; if, however, use of branch 7 results in a shorter connexion between P 
and R than hitherto obtained, it replaces the corresponding branch in set II 
and the latter is rejected. If the node R belongs to set C, it is added to set B and 
branch 7 is added to set II. 


Step 2. Every node in set B can be connected to node P in only one way 
if we restrict ourselves to branches from set I and one from set II. In this sense 
each node in set B has a distance from node P: the node with minimum distance 
from P is transferred from set B to set A, and the corresponding branch is trans- 
ferred from set II to set I. We then return to step1 and repeat the process 
until node Q is transferred to set A. Then the solution has been found. 


Remark 1. The above process can also be applied in the case where the length 
of a branch depends on the direction in which it is traversed. 


Remark 2. For each branch in sets I and II it is advisable to record its two 
nodes (in order of increasing distance from P), and the distance between P and 
that node of the branch that is furthest from P. For the branches of set I this 











Two Problems in Connexion with Graphs 271 


is the actual minimum distance, for the branches of set II it is only the minimum 
thus far obtained. 


The solution given above is to be preferred to the solution by L. R. Forp [3] 
as described by C. BERGE [4], for, irrespective of the number of branches, we 
need not store the data for all branches simultaneously but only those for the 
branches in sets I and II, and this number is always less than ». Furthermore, 
the amount of work to be done seems to be considerably less. 


References 


[1] KruskAL jr., J. B.: On the Shortest Spanning Subtree of a Graph and the 
Travelling Salesman Problem. Proc. Amer. Math. Soc. 7, 48—50 (1956). 

[2] LoBERMAN, H., and A. WEINBERGER: Formal Procedures for Connecting Ter- 
minals with a Minimum Total Wire Length. J. Ass. Comp. Mach. 4, 428—437 
(1957). 

[3] Forp, L. R.: Network flow theory. Rand Corp. Paper, P-923, 1956. 

[4] BrerGeE,C.: Théorie des graphes et ses applications, pp. 68—69. Paris: Dunod 1958. 


Mathematisch Centrum 
2e Boerhaavestraat 49 
Amsterdam-O 
(Received June 11, 1959) 








Numerische Mathematik 1, 272—307 (1959) 


Converging Factors for Continued Fractions 
Part I 
By 
P, WYNN 


1. Introduction 
When considering the continued fraction 
n i i933 


6 See “) 
GLAISHER [1] noted that 
1 #1°22°3  n*—n n 


ee ais 2 
i 1+ 1+ i+ 1 (2) 


was a considerably better approximation to 2/2 than the -th approximant of (1) 
4 1°23 2°3 n?—n n?+n 
ia i+ 1+ 1+ 1+ 1 (3) 
His explanation of this phenomenon was that u,, the “‘tail’’ of the continued 
fraction, viz. 











uv. = 21) (mt+1)(m+2) |, 
n 1 +. 1 + 
satisfies the difference equation 


(4) 


_ n(n+ 1) ” 

eda reg (5) 
1.e. 

Uy (Uni. +1) = n(n +1) (6) 


and that to a first approximation this equation is satisfied by u,=—m. An im- 


mediate consequence of this is an attempt to find a better approximation for u,, 
co 


in the form u,,= >) «,n~* and to extend this method of approximation to other 
s=-—1 


slowly convergent continued fractions. The function wu, is described as a con- 
verging factor, in analogy with expressions of a similar form and fulfilling a similar 
function well known in the summation of slowly convergent series [2]. 

Before preceeding with this however, it is in order to indicate the method 
of procedure for dealing with continued fractions whose coefficients are poly- 
nomials in their suffix, and to return to this particular problem at a later stage. 


2. Method for Deriving the Converging Factor 
2.1. The tail u,, where 








a. a a a a ee (7) 
i b, + d,+ 24+ Ontat Gait 


of the general p-adic continued fraction 





a Co Yo Y a. ae sae (8) 


b+ at stat at %+ Ost 











Converging Factors for Continued Fractions. I 273 


satisfies the difference equation 





“= a, Cy Vn 
" d+ Ea Mg (9) 
which reduces to the Riccatti difference equation 
p(n) u, + q(n) Uns +7(n) U,, Uy. = S(m) (10) 


where p(n), q(m),7(m) and s(m) are polynomials in whose degrees /*, g*, 7* 
and s* respectively, depend upon # and upon the coefficients a,,, b,,,..., 2, in 


the continued fraction (8). It is clearly a matter of little consequence if the tail 
of the continued fraction is taken to be u;,, where 





_ es Vn Qn+1 Cn+1 i & 
i, eg eee ee #8 


u, satisfies a difference equation of precisely the same form as (10), and the 
ensuing discussion is a relevant to this equation as it is to equation (10). 


The coefficients «, in the expression 
u,= 2 an (12) 


will be determined by a system of recursions, and to this end it is necessary to 
expand both w,,, and u,,4,,, in inverse powers of n. 


Now 
s=0 co 
bai = Dd @ (m+ ) + 2 a, (m + 1)~§ 
s=—k s=1 
=0 _ co oO, ‘ 
=> a; ea. 
s=k r=k co s—1 (s ant 
= Ze Der ()t Bel, oven 
k 
= >' 9? Sey 4 Sant Ate, (13) 
s=0 s=1 
where 2 and 4, the summation and difference operators respectively, are defined 
b 
J Sis) « S~a~Hsh~w (14) 
and 
Af(n) =f(m +1) —f(n). (15) 
Thus if co 
Uni = p> Bon-*, (16) 
s=—k 
p_,=Z"t"'a_, when r=0,1,...,:; (17) 
and 
B, = A’—*a, when 7=1,2,.... (18) 
Secondly 00 co co sth 
Sa tper >, ae > Ba'=m F a 2 «,-,fh,- 
s=—k s=—k s=—2k r=—k 
Thus if - 


U, Uy 34 = ps — (19) 
gan = 








274 P. Wynn: 


then stk 


= 2 sr B, . (20) 


It can now be seen that equation (10) determines, by equating coefficients of 
like powers of ”, possible values of k and thereafter a system of linear relations 
between the quantities «,, 8, and y,. The process of obtaining values for these 
quantities can be reduced to a simple repetitive routine the framework of which 
is a table of «, and the sums and differences thereof in the manner shown in 
Table 1, together with an auxiliary table of the quantities y,. 


The manner in which this framework is utilised depends upon the form of 
equation (10). If p*>qg* and 2p*>r*-+s*, the term of highest degree in ” on 
the left hand side of equation (10) is contributed by the quantity p(m) u,, & is 
given by p*+k=s*, equation (10) determines the quantities «, successively, 
and the quantities B,, y, can be inserted systematically after each determination 
of a new a,. The same remarks apply, mutatis mutandis, if g*>* and 2q*> 
r*+s*, 

The case in which 7* + s* is greater than both 2* and 2 @* is one of particular 
interest. The term of the highest degree in on the left hand side of equation 
(10) is contributed by the quantity 7(m) u,,u,.,, k is then given by r*+2k =s*, 
the first quantity to be determined is y_,,, and equation (10) determines the 
quantities y, successively. Expressions (12), (16) and (20) are not meaningful 
unless k is assumed to be an integer, which is not so, in this case, if 7*=—- p* (mod 2) ; 
a converging factor of the form (12) cannot be found by use of equation (10) in 
its present form. In .§ 7 this difficulty is encountered and it is there shewn by 
means of an artifice” - 


Table 1 
ap Y—-se= %_~B_,»= a2, 
(a_,) Da_p, Y—ehi1= %~B_pyit 4118-2 
(%_») Zaz % pix V—-oetgo= % eB_ryot 241 B_ey1 
‘ 2apiy * + &_pigB_y 
B__p= Z*tla_,= a_, ‘ ay 
2a_, 
B_»= 23-1 Xo 
Bo = XxX 
By = % 
B,= 4%, 
a | Bs = A? a 
Ax, As—2a, 
Og ' A*-* a, B, = d*-*a, 
Aa,» 
a 








“lo, 





Converging Factors for Continued Fractions. | 275 


which seems to be capable of general application, that a converging factor can 
still be constructed. 

Assuming / to have been determined, it can be seen from the relation y_,, =7.,, 
that there are two permissible values for «_,, and hence, from the recursion 

co co 
system, two associated converging factors, u!) = ¥ a!) n-* and u?) = ¥ a? n°. 
s=—k s=—k 

(Indeed in all cases in which y_,, occurs among the initial unknown quantities, 
there results a quadratic equation for «_, which gives rise to the generation of 


two converging factors). The computational procedure in this case is also slightly 
s+k 


more complicated than in the preceding two. Writing y,= >) a_,,,_,£,, it still 
v=—k 


remains to determine two unknown quantities «, and B,. This ist most economi- 
cally done by using the information already contained in Table 1, for if s<0 


B_p= 2s a_, + 28a, t--+La_,+a_, (21) 
and if s>0 
@, =O, 7+ Aa, + --- A> 7ay + B, (22) 


and equation (20) together with either equation (21) or equation (22) are easily 
solved for «, and f,. 

For all other relationships between the quantities p*,g*,7* and s*, k is 
uniquely determined and thereafter a simple computational routine, based upon 
Table 1, suffices to determine the coefficients «,, 8, and y,. The most complicated 
computational procedure arises from the case 2p*=2q*=r*-+s*, in which all 
the quantities «,, 8, and y, appear simultaneously as unknowns, but this is hardly 
a matter of great difficulty, for the ensuing relationship, together with equations 
(20) and (21) or (22) provide a set of three linear equations from which numerical 
values of «,, 8, and y, are easily extracted. 

2.2. Having treated with the algebraic processes concerned in obtaining the 
coefficients «, in the converging factor from an ideal point of view, it is proposed 
to introduce a modification to the method which, in the light of later experience, 
will simplify the algebraic manipulation involved. It will be noted that the 


quantity u,,, in equation (10) only occurs in the combination z,-+4,,,. The 
oO 


substitution z,-+4,.,= >) B,n~‘ is therefore made. This may completely remove 
s=—k 
from the recursion system obtained from the Riccatti difference equation those 
terms involving the quantities «,. The modification does, of course, destroy the 
simple relationships between the quantities 8, and «, given in equation (16) and 
(17), but if (as is always the case in this investigation and as may always be 
rendered the case by a simple equivalence transformation) the quantity z, is the 
polynomial 
ay = Cot tnt + Cn" 


then equations (16) and (17) merely evolve to the form 
B.,.=Z*a_,+¢, and £~,=—4* "a, s=1,2,.... 


2.3. The processes involved in obtaining the coefficients in the converging 
factor may often considerably be simplified by applying a suitable equivalence 





276 P. Wynn: 


transformation to the continued fraction under consideration. For example, if 


a(a+ 1)b(b+ 1) 

















oF, (a,b; 52) =1 +20 2 + cet ty al z24.. 
then 
a(c — b) 
oF, (a,b + 1;¢+ 132) ine c(e +1) 
oF, (a, b; c; 2) 1-— 1— 
(b+ 1)(¢—~a@+1) , (a+ 1)(C~b+1) , (b + 2) (c—a@+ 2) | 
(c + 1) (¢ +2) (¢ + 2) (¢ + 3) (c + 3) (¢ + 4) s+. (23) 
i_ i-— i-— 


Converging factors for the continued fraction (23) are obtained by writing 


(a+n)(c—b+n) P (b+m+ 1)(c—a+n+ti) | 
— (C+2n)(c+2n+1)  (c+2n+1)(c + 2” + 2) 
. 1— 1— 


* 








(a+n+1)(c—b+n+1) 
(c+2u+2)(c+2n+3) (24) 
Le 2 








and thus deriving the difference equation 

(a +n) (c—b+n) i 

(c + 2m) (c + 2n + 1) . 
Gtuti(c—atnth, (25) 
(c + 2m + 1) (c + 2n + 2) 


1 — Uns 








4, = 








which reduces to 
(c++ 2m) (c+ 2m+1) (c+ 2+ 2) u, {1 — u, 4} — (a+n)(c—b+n) x 

x (c+ 2m + 2) {4 — uw, 45} — (C+ 2m) (6+ +1) (c—a+n+1)zu,=0. (26) 
The coefficients in this equation are cubic functions of m, and the resultant 
system involves the twelve quantities «,, @,.1,%5:2,%543) Bs, Bsii, Beso, Bois 


Vs» Vs+1» Ys+2» ¥si3- If however (23) is simplified by means of a suitable equi- 
valence transformation, it becomes 


oF, (a,b + 1;¢ + 132) c_a(c—b)z (b+ 1) (C—at1)z (a+ 1)(Cc~b+1)z. (27) 








oF, (a, b; c; 2) c— ¢+1-— c+2-— te I— 
The difference equation for the converging factor 
~~ (a+n)(c—b+n)z (b+n+1)(c—a+n+1)z (a+n+1)(c—b+n+1)z (28) 
” ct2n+1— c+2n+2— c+2n+3— 
is 


(c+ 2n+1)u,{c+ 2n+2—u,,,} —2(b+n"+1)(c—a+n+1)u, — 
—2z(a+n)(c—b+n){c+2n+2—4u,,,} =0 (29) 


which leads to a recursion system involving only the eight quantities y,, y,.,, 
Ks, Asia, Asia, Bs, Beas , Bs+2- 

2.4. Once a sufficient number of terms in the converging factor have been 
found, they may be checked by evaluating u, and u,,, for a suitable value of n 
and substituting these values in equation (10). 








can ita sinoeedcnac sabaiasemiatlinn 


nee WS NS de ins 














ane Stare kneeinreniealatiie, J 








Converging Factors for Continued Fractions. I 277 


2.5. The n-th convergent 


oo a, a2 an 
C,, = bg + 


ie sisi i 


of the infinite continued fraction 








C=) + et ms (30) 
may be evaluated by effecting the twin recursions 
Ay = by Any + Gy An—2, (31) 
B, =, B,1+4,B,_2, (32) 
A,=1, Ag=d,, B.,=0, B=i1, 
when ; 
Come. 





n 


It now remains to incorporate the converging factor into the scheme for 
computing the m-th convergent of the continued fraction under consideration. 





This is simply done: in the case of the converging factor u, for a, write u,, and 
for b,, write 1, then 
, , +u : 
C = n—tl n n—2 


in the case of the converging factor u,, (c.f. equation (11)) for 6, write u,, then 





” iA nm +a Mec 
Co ns n n—1 nin. 4 
sa Uy By—-1 + GnAn-_s G3 ) 


2.6. An indication of the accuracy achieved by use of the converging factor 
is provided by comparing the results obtained when » =” and when »=#+1. 
A more precise estimate of the error in the determination of C is provided by the 
following error analysis, which also throws light on an apparent difficulty inherent 
in the method. It might at first appear from equations (33) and (34) that the 
attainment of a certain accuracy in C,, or C;,’ prerequires comparable accuracy 
in the determination of u, or u,, and that insofar as -u,, and u,, may only be given 
as asymptotic series, or the structure of equation (10) in a particular instance 
renders the process of obtaining the coefficients in u,, and u, tedious, the method 
is correspondingly limited in application. That this is not so is seen as follows. 
Suppose that the relative error in C,, is ¢,, so that 


bar An—, + GnAn-—e 
b, By, + a,By- 





- C(A + &,) (35) 


and the relative error in the determination of u, is 7, so that 


Ay y+ UnAn-s at 6 
By-1 + ty, Bus (3 





and a more precise formulation of equation (33) is 


An—1+ Un(1 + In) Ane 
By-1+ Uy(1 + Nn) By-» 





=C. (37) 








278 P. Wynn: 


Equations (35) and (36) yield 
Uy by — a (38) 





Equation (37) may be expanded as 
1 (An—-y+ Up An—2) + Un tn An—2 Un tn Bn—» aad 
= By-1+ Un Bu» {! Bynt Uy, By» } (39) 
neglecting terms of the second and higher powers in ,. This reduces, with the 
aid of equation (36) to 
on aa (Ay, Bu_-2— BnAn—2) ++} 
C cit 0 Mie (Bn—1 + Un Bue) (An-1 + Un An—2) T (40) 
and finally, with the aid of equation (38) to 


Ch= C11 — eden +o} (41) 


The order of magnitude of ¢,, is indicated by C;,—C,,, n, can be inferred from 
the terms in the series for u,,, the quantities u, , a, and 0, are all known, and hence 
a very good idea of the accuracy of the final result may be formed. In passing 
it may be seen from equation (41) that if 7 correct figures have been obtained 
in the m-th convergent and s such in the converging factor, then it may well 
occur that the quantity C,, will be correct to (y+) figures. The process does 
appear to come to grief when u,==a,/b,, however when u,=a,/b, from 
equation (33) 











’ a +a ,. ne 
C ints one n+*n—2 =C 
° Bp Bans + Ge Bens a 





and it is interesting to note, in anticipation of the numerical results contained 
in later sections, that in this singular case the continued fraction is so rapidly 
convergent as not to require use of the converging factor. Indeed the converging 
factor is most pertinently used when C;,=+C,,. 

Converging factors for a number of continued fraction expansions will now 
be derived. The scheme of development is essentially that used by the author 
in an expository treatise [3] to which reference may be made for further informa- 
tion about the numerical application of continued fractions. 


3. Continued Fractions for 7/2 and Log,2 


The investigation of the continued fraction for 2/2 given by equation (1) can 


now serve as an introductory example. Substitution of the converging factor 
co 


u,= > ~ in the difference equation 
s=—k 
Uy (Uni, +1) =n? +n (42) 
reveals that k=1 and that «.,—-+1. Inspection of equation (42) reveals that 
u,,,, occurs only in the form wu, ,,-+ 1, hence for reasons of computational economy 


the representations 
co 


oo 
Uni ti= > & Uy (Uni +1) = - Ys 


s=-1 s=—2 


are made. Equation (42) merely asserts that y_»=y_.=1, yyp="=-:: =0. 

















Converging Factors for Continued Fractions. I 279 


The difference table (of the form Table 1) for this example in the case when 
a?) =4 is given in Table 2. 




















Table 2 
x(t) 
s=—1 1 
1 
1 
2 
1 
— +4 
ri + 
3 
a 
ro 
8 
3 
, +738 
45 87 
428 728 
45 4 45 651 
128 64 1024 
45 45 __ 2409 
+ 738 + 7024 1024 
765 _ 765 (1) ' 
of + 024 256 _— 
1125 3015 
1024 1024 
1125 1125 
1024 512 
1125 
1024 
$= 6 0 
ui) 


Extension of this table reveals that 
af = — 241 725/32768 of =O af) = + 15,810,975/262,144 al =0. 
No attempt has been made to examine the series for 4, in this case in detail, 


but it seems reasonable to conjecture that af!) =0, whilst a), , oscillates in sign 
with s and increases in magnitude without limit. 


The case «'?} = —1 yields the coefficients 
2 2 2 2 
a —=—}, a=—$, a =0, af=— ihe, af =O, 
2 2 27 Pe 
c= + A, aM —+ Ay, af = — AUK... 


For the continued fraction itself, in the notation of equation (30) 
b=1, &=1, &=1, @4,=(n—1)#, 56,=1 ”=2,}3,... 
and the recursions of equation (31) and (32) become 
A, =A, t+n(n—1)Ay-s 
B, = B,_,+n(n —1) B,_2.- 








280 P. Wynn: 


These have a simple analytical solution, for 
Ag, = 2m 2n Ag,- tae 2?" (n!)2, 
1 = 2n(2n + 2) Ag,_, = 22"* 1m! (mn +1)!; 


sit 


By, = (2m + 1) (2m — 1) Bay -2 = Can , 


((2” + 1)!)? | 
2 (nye ° 





Bon yi = (20 + 1)? Bayi = 


and hence 
2*"+1(m1)3(n + 1)! 


_ 240 (n!)4 
Can = ((2n + 1)1)2 


. (2)!(2m +1)!’ Conti = 








The similarity to the general formula for the approximants in WALLIS’ infinite 
product for 2/2 may be remarked. Indeed GLAISHER established several general 
relations connecting infinite products, infinite series and continued fractions and 
exemplified these by one or two celebrated examples. 


Evaluating the converging factor wu!) when »=5 there follows 
uf) =5 —0.5 +0.075 — 0.0028 125 + 0.0003 5156 — 0.00008271 + 0.00003088 

= 4.57248723. (43) 
The quotient of the form (33) is 


Ce ani 384 + (4.57248723) 64 
;= 
225 + (4.57248723) 45 





= 1.57079617. (44) 


The sixth convergent of (4) is 
Cy = 1.46285714. 


It will be recalled that 2/2 = 1.57079633.... 

Since Cg—C,,: it will be appreciated that use of the converging factor may 
bring about a striking improvement in the numerical performance of a continued 
fraction. ; 

Evaluating the converging factor u'?) when » =5 there follows 


u?) = — 5.0 — 0.5 + 0.025 — 0.0001 875 + 0.00001688 +- 
+ 0.00000337 — 0.00000118 
= — 5.4751 6843. (45) 
The quotient of the form (33) is 
384 — (5.0751 6843) 4. — 4.57086853 (46) 





225 — (5.4751 6843) 45 


which (apart from approximating to — > ) does not appear to be anything 
recognisable. In the examination of a large number of cases it has been found 
that use of one of the converging factors, denoted wu), accelerates the convergence 
of the continued fraction to the quantity which the continued fraction may be 
used to define, but that use of the other, denoted u?), produces anomalous results. 


In the ensuing text, with the exception of the next example, the coefficients 

















Converging Factors for Continued Fractions. I 281 


in the converging factor «?) will be given, but details of the numerical results 
to be obtained by using it, will not. A discussion of the possible significance 
of the converging factor u?) will be given in § 10. 
Considering the continued fraction 
1 41:1 2-2 n? 


ane ae Te ae a (47) 


there follows the difference equation of the form (10) 


My (1 + ty y1) = m2, (48) 
Substituting 4, = s —s it may be noted that k=1, and that «_,= +1. Cor- 
responding to a 4, further coefficients are 
a= —1, af =4, af =$, af =—4, af = — Hf, 
as) = —h, og = +4, a = + HR, of) = — Sl, (49) 


1 7s 1 i 
a) = — 16832, af) = +H. 


Again this series for u, has not been investigated in detail. It seems reasonable 
to conjecture that the sign of «!") changes fairly regularly after every a{),,, and 
that the magnitude of «!") increases without limit. 


Evaluating the converging factor u? when n =10, there follows 
us) = 10.0 — 1.0 + 0.05 + 0.005 — 0.0001 25 — 0.0001 0625 — 
— 0.00000125 + 0.00000472 + 0.00000027 + --- = 9.0547 7249, (50) 


and C},=0.6931 5463, in comparison with C,,=0.7365 4401. It will be recalled 
that log, 2=0.69314718.... 














Corresponding to «_,= —1, all subsequent «, vanish, indeed it is obvious upon 
inspection that u,——m satisfies equation (48). Treatment of the continued 
fraction (47) with the converging factor u,, = — n submits it to a curious unwinding 
procedure, for 

Cat, SF... 2-8 2 

"4+ 14 ° 14+ 1+ 1 
— 12-22 (n — 2) . 
t+ 1+ t+ t—-(H—1) 
ss 1* = 28 (n — 3)? 
~ t+ t+ 1- 1—(n—2) 

1 

Re = OO. : (51) 


4. Continued Fractions Associated with Bessel Functions 
If* 





; 1 1 
Filet torr? + sera + (52) 





* In the ‘following text a certain amount of information is given which, whiie 
being of technical interest, is not essential to the mathematical development of the 
paper, and will thus be shown in small print. 








282 P. Wynn: 


























then ‘ - 
oFi(c+t3z)_ 1 eet) CHNCTD 
of (¢; 2) 1+ 1+ .7 (53) 
= € s ad eee 
c+ c+i+t+ c+2+4+ ; 
Converging factors for (53) are derived by writing 
—> z ad ere 
Mu tint cfntat (54) 
which leads to the difference equation 
z 
Uy, = 
C+nN+1 + Uns, 
or 
Uy, (C+ +14 + Uy41) =2. (55) 
Writing 
oo 
C+Mt+1 + tyii= 2 Bon (56) 
s=—k 
equation (55) asserts that R=1. y_.=y_.="1=Y2=':: =0, whilst yp=z. 
co 
The two converging factors which arise from (55) are then wu) = > a) n—s, where 
s=-1 
aM =aP=—0; afM= 2; a= — (c+ 1)2; af = — 22+ 2(c + 1)?; (57) 
af? = 22(3¢ + 4) —2z(c + 1)8; of? = 223 — 22(6c? + 16¢ + 11) + 2(¢ + 1)4;... 
co 
and u2 = > a n-s, where 
s=-—1 
a= — 1; oP = —c; a= — 2; af = 2(c — 1); af? = 2*— 2(c — 1)?; (58) 
af?) = (4 — 3c) 22+ 2(c — 1)8; af? = — 223 + 22(6c? — 16c + 11) — 2(c — 1)4;.... 
Since 
y \ 4 “i F z\2 
Je) =($) Ce +1) +45 —(F)) 
it follows from (53) that 
(i 
per 2 (59) 
Jo~y (2) yv— vwt+1i-— v+2— ; 
and since 
I, (2) =( =) Pe +4)}3 F, (+4; (Z)’) 
v 2 o*1 *\2 
it follows that 
£ ( =) (=) 
I, (2’) ab 2 2 2 (60) 





10) 9+ +t o+2+ - 


Converging factors for the continued fractions (59) and (60) follow by making 
trivial alterations in the sets of coefficients (57) and (58). 





Converging Factors for Continued Fractions. I 283 


A numerical example is provided by the evaluation of (59) when 2’ = 4 and 
y=1. Evaluating the converging factor u! when n =8 there follows 


ul) = — 0.5 + 0.083 333 + 0.001 736... 


= — 0.414931 : (61) 
and 
Cio = — 0.1662932366. 


This is to be compared with C,)>=— 0.1662931949... and 


Sr AtEOE — — 01662932384... 


5. Continued Fractions Associated with the Hypergeometric Function 


5.0. If 


a owe ab a(a+1)b(b+1 ' 
Rate Te yee ee 





then 
a(c—b) (b+ 1)(c—a+1) 
2oFi(a;b+1;c+14;2) _ 1 c(c+1)_ (C+ijce+2) 














of, (a, b; c; 2) i— i— i- 
(a+ 1)(c—b+1) , (b + 2) (¢ —a +2) 
(¢ + 2) (¢ + 3) (c + 3) (¢ + 4) 
i— oe 
__¢ a(c—b)z (b+1)(c—a+1)z (a+1)(Cc—b+1)z (63) 
c— ¢e+1— c+2-— c+3-— ; 





Converging factors for the continued fraction (63) are obtained by writing 





—— (a+m)(c—b+m)z (b+n+1)(c—a+m+i)z (a+n+1)(Cc—b+m+4+1)z _ (64) 
P c+2n+1— c+2n+2— c+2n+3— 


from which there follows immediately the difference equation 
(a+n)(c—b+n)z 


7 _ (b+n+1)(c—a+n+i1)z 
irae 3 C+ 2n + 2— Uns) 








or 


(c+2"+1)u, (c+ 2n+ 2 — 4,43) — 
— 2{(6+1)(c—a+1)+(b+c—a+2)n+n} u, — 
— z{a(c —b) + (a+c—b) n+ n*} (c+ 2n+2—Uu,4,) =0. (65) 


The form of equation (65) indicates that the correct substitutions are of the form 
co 
u,= >i am * and c+2n+2—4,,,= > Bn. 
s=—1 


Equating to zero the coefficients of n? in equation (65), there follows 


2a_,(2 — a1) —za_,— 2(2 —a_,) =0 





284 P. Wynn: 


or 7" 
a y— 2a.,5+2=0 


that is 
a,=1+y where y=J1—z. 


The coefficients in the converging factor u\) are 








i-y ‘ Z 
aM =1—y, a= 2c—h—idy), gh = — — {A(A 4 a4 
1 Y, ag rat Y), jay A(A+ 2)¥8 + mh... 
and those in x‘? are 
i+y 4 Zz 
M=ity, af = —(2c —A+Ay), af = ——SA(/ + 2) y? 
an Vv, Xt mn (2c + AY), ay 327 {A(A + 2) y? + p},... 
where 
A=2b+1-—2a 
and 
= — A(A— 8c — 10) — 4{3c? + 6c + 2 — 2a(c + 2) — 2(c — b) (2a +¢+42)}. 


Equation (65) may be rewritten as 





(c+2n+1) d y.n-*—2{(b +1) (c—a+1)+(b+c—a+2)n4+m% ¥ ans — 


as ail s=-—1 


— z{a(c —b) + (a+c—d)n+n% ¥ Bn =0 


s=-1 
which gives, as a recursion for the quantities «,, B,, y, 
(C+ 1) 75 + 2541 — 2(6 +1) (¢C —a+1)a,—2(b+¢ —a+2)a,,,;— 
— 20549— 2a(c — b) B,—z(a+c — b)B,.,—2B,,.2= 


A number of important expansions arise as special cases of (63). 





Writing a=}, b= —},c = $, (63) becomes 
oF, ($,35952%) _ _arcsinz 
2A(d,— 454529) 21 — 2? 
pi) t ez (f)-t-2t (9) 2-24 (2-28 





=. ane = - ons a 
roy 2 2 2 


The converging factor 


yo = tHe + 1)? (nt (nt ie (n+ 3) (m+2)2 |, 
— 2n + }— 2n + 3— 2n+ 3-— 





satisfies the difference equation 


(3 + 2m), {3 + 2m — Uynsy} — 27{b + (¥) 2 + n*} uy — 22{§ + 2m — ty 443 = 0. 


In the notation of equations (70) and (71) 
a 9 u=O0 


and thus the initial coefficients of u‘ are 


1— yv)(2+ y) y? 22 
af), = {— y, ag = ( , af!) _ 329 , 








and those in u‘? are 








@ (1 + y) (2— 9) 


= J ; = 
a,=1+y, a 4 , 1 32Y ’ 


(72) 


(75) 














Converging Factors for Continued Fractions. I 


wh 
ere y= rae 


The recursion (73) becomes 


(3) ¥s + 2¥s41 — (4) 22 a5 — (¥) 2? Os4.— 27054 — ($) 278, — (3) 2° Bo, — 27 Bs4,= 0. 


Writing a=},b=0, c=}, there follows 


Fi ($, 153; — 27) _ 
oF, (+, 0; $; — 2%) 





(—) arctan 

z 

—_ + (g)P2* 172% (9)? 2% 282? 
“se =F SF SF 
_ (n+ sz? (m+ 1)82% (m+ 3822 


“e~"an+3+ 2m+4+ 2n+49+ 
satisfies the difference equation 
(3 + 4m) Un (} + 2 — Uy4,) + 422(1 + 2n + 2m?) uy, + 
+ 27(1 + 4 + 4n?) ($+ 2n—UuUy,4,) =0 


A=0, p=1, 





The converging factor 





and the initial coefficients of u{? are 





2 
eM=1-y% oP=()(1—»), aP=—.. 
and those of 7:‘?) are 
22 
©, = 1 _, = 1 », ei, .., 
en) de 0 (4) ( 7 y) 1 Jay 


where 


y= lite 


and the recursion (73) becomes 


69s + 8544 + 42% 45 + 822 454, + 42270549 + 278, + 4278.4, + 427B.4,= 0. 


When a= 1, b=0, c=1 there follows 


2/4 (1, 1; 2; — 2) =(4 
of, (1,0; 1; — z) Z 





) tog (1 +s) 


a. Ss 18s Bs Fz 
i BF 3+ 44% 5+ °°" 





The converging factor 
a (n+ 1)?z (m+ 1)?z (w+ 2)?z (n+ 2)%z 
ns 2n+24+ 2n+3+ Aan+4+ 2n+5+ °° 





satisfies the difference equation 


2tyn(3 + 2n + Uy 44) —2(m + 1) U4, —2(n + 1)(3 + 2n+4+ uy, 4,1) =O 








A=-1, p=i, 
and the initial coefficients of u? are 
22 
aM =1—y, ag” = (4) (1 — vy) (3+ 4), ay?) = 32y °°" 
and those in u‘?) are 
22 
a=tty aP=—()(i+y(3—y), aP=— a" 


where y = Vi+z, and the recursion (73) becomes 


2Ys — 2%s— 2054, — 2B, — 7854, = 0. 


285 


(33) 


(84) 








286 P. Wynn: 


A numerical example of this last expansion will be given. When z=1 and 
n=4 
ul) = — 1.656854 — 0.457107 + 0.005 524... 
= 2.108 437, (89) 
and 
Cig = 0.69314 718055 
which is to be compared with 
Cy = 0.6931471579 and log,2 = 0.69314718056. 


5.1. A further continued fraction which relates two hypergeometric functions 
of contiguous orders is 
ab (a+1)(b+1)z(1—z) (a +n) (b+ n)2(1 —2z) ++ (90) 
c—(a+b+1)2+ c+1—(a+b6+4 3)24+ c+n—(a+b+2n4+1)24+ 
which converges [4] to 


ab,F,(a+1,b+1;¢+ 1; 2) 
C oF, (a, b; c; z) 





1 1 
h R _— = 
when Re(z) < - & tes 





and to 
—ab 2A(a+1,b6+1;a+b—c+2;1—2) 
a+b—c+1 2 (a,b;a+b—c+1;1—2) 
and diverges on the line Re(z) =4 except at z=}. 
Converging factors for (90) may be derived by writing 
(a +n) (b+ n)2z(1 —2z) (a+n+1)(b+n+1)z2(1—z) 
c+n—(a+b+2n+4+1)2+ c+n+1—(@+6+ 2n+ 3)z24+ 
from which there follows the difference equation 
bd (a +n) (b+ n) z(1 — 2) 
" —e+n—(a+b+2n4+ 1)24+ U4, 





when Re(z) > 





uu, = 





or 
u,{c — (a+b+1)z+n(1 = 22) + 4,44} —2(1—2) {ab +n(a+b) +n} =0 (91) 


which, writing 


c—(a+6+1)z+n(1 — 2z)+4,,,= Ey 
ot 
gives the degenerate recursion 
y,=0 s=1,2,.... (92) 
co 
Substitution of the series u, = PD ~ into (91) shows that k =1, and that the 
s=—k 


two possible values of «_, are roots of the equation 


y_e—2(1—z)=0 


i.e. 
a _»— 2za_,+a72,—2(1—2) =0 
or 
we a7 +(4 — 2z)a_,—2(1—2z) =0 (93) 
giving 


a®) =z and a? =z—1. 








Converging Factors for Continued Fractions. I 287 


From these follow the sets of coefficients 


aM =2z, a=(a+b—c)z, a=2(1 —2)(c—a)(c—b), 


af? = — 2(1 — 2) (c—a) (c—b) {c+ (a+b — 26 — 1)2},..., te 


and 


a =2—1, a=(z—1)(c—1), a =2(z—1){(c —1)(c—a—b— 1) + ab}, 


ay = 2(z — 1) {(c — 1) (c—a—b—1) + ab}{2—c—2(a+b + 3—20)}},.... (95) 


The expansion (90) is but one of a number of continued fractions associated 
with the hypergeometric function. A complete system of such expansions was 
described by INcE [4], they will be retailed here with appropriate converging 
factors. 


It has already been remarked that the continued fraction (90) converges to 


1 


- (¥,)/%, for Re(z) < = and to (v5)/¥5 for Re(z) > $ ,» where 


- de 

dz 
¥y=2F,(a,b;c;z) and y,=,R(a,b;a+b+1—c;1—2). 

Considering the solution, y,= (1 — z)*°-*—°F(c —a, c—b; cc; z) there follows 


d 
d etb—-c ge Pee 44 ~ tice) 


de (Yl¥e= 1—2z oF, (c — a,c — b; c; 2) 





It may be shown that the continued fraction 


a+b—c , (c — a) (c — b) (c—a+1)(c—b+1)2(1 — 2) 








1—2 © ¢—(2¢e—a—b+1)z+ c+1—(2c—a—b+ 3)z4+ 
(c—a+n)(c—b+n)2(1 —2z) 
c+n—(2c—a—b+2n+1)z2+ 





converges to 


= (¥2)/Ye when Re(z)< + , (96) 


and to 
Ny, where y,=2~*,F,(a,a+1—c;a+6+1-—c;1—2z7) when Re(z) > ; 
Converging factors for (96) are obtained from the equation 


Un{c — 2(2c —a—b+ 1) +n(1 — 22) + Uy 43} 
= 2(1 —2){(c — a) (c —b) + n(2c —a—b) +n} (97) 


giving the two sets of coefficients 


aM=—2z, af%=2z(c—a—b), af =abz(1—2), 





() (98) 
af) = abz(1 — z){z(a+b+ 1) —c}; 
and 
a =2z—1, a= (1—2)(1—c), a= 2(z—1)(a—1)(b—1), (99) 
a = z(z — 1) (a— 1) (b— 1){2 -—c—2z(3 —a—b)};.... 
Similarly 
ij-—¢ . (a—c+1)(b—c+1) (@—c+2)(b—c+2)z(1—2z) | 
z | 2—¢e—(a+b—2¢4+3)2+ 3—c—(a+b—2c4 5)2+ (100) 


(a—c+n)(b—c+n)2z(1 —2z) oe 
n+1—c—(a+b—2c+2n+1)z+ 
20* 











288 P. Wynn: 


geen Y, 
- where ys= (1 — z)—*F, (a, c—b; c; (z/(g—1))) when Re(z) < ; 





converges to 
d 


V3 


and to where yg=2!~°,F,(a+1—c,b+1—c; a+b+1—c; 1—z) when 





V6 
Re(z) > > Converging factors for (100) are obtained from the equations 


uy{1—c—(a+b—2¢+4+1)2+4+n(1 — 22) + uUn4,} 


=2(1—2z){(a—c)(b—c) + (a+b—2c)n+n%3 ey) 
giving the two sets of coefficients 
aM=2z, a’=(a+b—c—1)z, aP=(1—a)(1—d)z(1 — 4), (102 
as = (1 — a) (1 — b) {2(3 —a—b) +c — 1}2(1 —2),... 
and 
a), = z—1, ag? = c(1—2), af?) = abz(z— 1), (103) 


a? = abz(z—1){c+1—2z(a+b+4 1)},.... 


Proceeding to the solution appropriate to the singularity at infinity the substitution 
€=1/z is made. Considering first the solution 


Vo = (— 2)~* A (a,a+1—c;a+1—b;27) 
there follows 








d d 
a: qe 2ila.a—ct+1;a—b+1;6) 
_eS=S a= a Be 
Yo ree oi (a,a—c+1;a—b+1; 6) 
=—at—# tot Be (a+ 1) (a~c + 2)&(1 ~€) 


a—b+1—(2a—c+2)&+ a—b+2-—(2a—c+4)é+ 


Making the reverse substitution z = 1/€ the continued fraction 








aS a(a —c +1) (a+1)(a—c+2)(z—1) 
zZ z (a—b+1)z—(2a—c+2)+ (a—b+2)z2—(2a—c+4)+ (104) 
(a+n)(a—c+n-+ 1) (z—1) 45. 
(a—b+n+1)z—(2a—c+2n)+ 
d 
{ ae (%) 
is derived, which when R(&) < rh i.e. |z— 1| > 1, converges to ——— and when 
9 
{ Ag (Ya) 
R(é) > —,ie.|z—1| <1, converges to where y,,= (1 —z)*-*~°,F (c—a, 


2 y 
c—b;c+1—a—b; 1 —z). Converging factors for (104) are derived from the equation 
u,.{(a—b+1)z—2a+¢+mn(z— 2) + Uy43} 

= (z— 1) {a(a—c+1)+n(2a—c +1) + n*} (105) 


giving the two sets of coefficients 


Ee he 





ai?) — (2-3) {(b — c) (b — 1) 28 — (b+ 3b —bc —c — 2) 22 + 2(2b—c+1)z—4} (106) 
ail) = — 2-84(b — c) (b — 1) 29+ (b— 1) (c —b — 2) 22+ (26 -—c + 1)24+4} x 
x {(a—b + 1) 22+ (2b —c) 2-4 











Converging Factors for Continued Fractions. I 289 


and 
of?) — (1 — 2) {(a — b)z + 2} 


~ 
~ 


ai?) = 2-8(2¢ — 1) {b(c — b — 1) 2? — 2(c — 2b —1) 2 — 4} (107) 
ai?) = (2-5) {b(c — b — 1) 28 — 2(c -a—b — 1) z — 4)} x 
x (2 — 1) {22(1 —a +b) +. 2(c — 2b — 4) 4 4}. 





a, = 1—2, 


The remaining continued fractions may be listed off quickly in succession, together 
with the pairs of functions to which they converge and the domains of convergence, 
followed by the difference equations from which converging factors may be derived, 
the appropriate converging factors and the initial coefficients associated with these. 


They are 
b 1 b(b —c + 1) (b + 1) (b —c + 2) (z—1) 


3” ss BHF ier—Ge—etat+ © —4tas—e—c+4)+ 
(6+ n)(b—c+n-+ 1) (z—1) 
(b—a+n-+1)z—(2b—c+2n)+ 





(108) 





converging to 


d 
dz 7 
, where 449 = (— 2)'-¢(1 — z)*-4-6, Fi (1 — b,c — b;a+1 — b; 271) 
0 
’ when |z—1|>1 
and to 
dz ¥2 
> where Vo. = 2!—¢(1 — z)*-4-5,F (1 — a, 1—b;c+1—a—b;1—2) 
22 


when |z—1| <1. 
The difference equation is 
‘Un {2(b —at+ 1)— 2b+c+n(z— 2) + 4,4} 
= (z— 1) {b(b —c +1) + 2(2b—c+1) +n} (109) 
and coefficients 
Zz 


ai! = (2-8) {(a — c) (a — 1) 28+ (a — 1) (c —a— 1) 22+ (2a—c+1)z+4}, (110) 
ay = — 2—=*{(a —c) (a — 1) 28+ (a — 1) (c —a — 2) 22+ (2a—c+1)z2+4} x 
x {(b — a+ 1) 22 + (2a —c)z — 4} 





and 
(1 — 2) {(b — a)z + 2} 





a%=—1i-—z, a= 

















Zz 
af?) = (2-8) {a(c — a — 1) 28 — 2(c —a — b — 1) 2 — 4}, (111) 
af = — z-5{a(c — a— 1) 22 — 2(c —a— b — 1) 2 — 4}(z — 1) X 
x {22(1 —b + a) + 2(c — 2a — 4) + 4},... 
O=—3 , S2ees . 3 (1 — a) (c — a) 
Zz 1—2z z (b—a+1)z2—(c—2a+2)+ 
_ (2—a) (¢—a +1) (2 —1) (n — a) (c —2+ mn — 1) (z— 1) - 
(b—a+2)z—(c—2a+4)+  (b—a+n)z—(c—2a+2n)+ (112) 
which converges to 
d 
as 
————, where y,,= (1 —2)~*,F,(a,c —b;a+1—6;(1—2)—') when |z—1|>1 


Vu 








290 P. Wynn: 


and to 


d 
rr Yes 
—" where 3 = 24—¢(1 — z)¢-4-6, Fi (c —a,1—a;co+1—a—b;1—27') 
23 
when |z—1| <1. 
The difference equation is 


u,,{(b —a)z—c+2a+n(z— 2) + Uy44} 








= (z—1){a(a+1—c)+n(c— 2a—1) +n} (113) 
and coefficients 
ao, =1, aW=c—a—b—1, ai = U4) 4(¢ 5 4),... (114) 
and 
a?) — (1 —z)(b—a—1), ap = 2) 665 a —1) + 0-1) (6-0)... (115) 
Rs» Silesk 1 (1 — 4) (c=) 
Zz 1—2z z}] (a—b+1)z2—(c— 26+ 2)+ 
(2 — b) (c —b+ 1) (2 — 1) _., _(n — b) (¢ —b +n — 1) (z—1) 





(a—b+2)z—(c—2b+4)+ (a—b+n)z— (c— 26+ 2n)+ (116) 
which converges to 


d 
GW: * 
—" where 4,,= (— 2)'~°(1 — z)°-9-!, Fi (a+1—c,1—b;a+1—b; (1 —2z)—?) 
” when |z—1| <1 
and to 
d 


a: 7* 
—" where = 2°-¢(1 — z)°-4-9,Fi (c —b,1—b;¢+1—a—b;1—27') 
24 


when |z—1| <1 
Uy, {(a — b)z—c+2b+4 n(z— 2) + Un 44} 
= (z—1){b(b+1—c)+n(c—2b—1)+n% (417) 
and coefficients 
(c+1—b—a)—2 
. 
+ 22(2(a — b) — (2—a—b) (c+ 1—b—a)]—b(b+1—c)}... (118) 


of) — 


af) = — g—8{23 [a(2b —c — 1 + @) + 26) + 





a), = 1, 


and 
(1 — z){z(a— b — 1) + 2} 
7 ‘ 





o'2), ={—Z, ax{?) = 


ot?) — M4) 2at(a—b — 1) — aA[(b— 6 + 1) (@— 26 — 1) + 





+ (a + 1) (a—b—1)] — 22(2a —c — 1) — 4}... ~~ (419) 
—- 1 a(c — b) (a+1)(c—b+1)z 
as toe —c—(a—b+1)z— —c—1—(a—b+ 3)z— 


(120) 
(a+n)(c—b+n)z - 
—c—n—(a—b+2n+ 1)2— 





converging to 


a 
dz Vis 


Vis 


, where yy3=(—2z)-°,F\(b+1—c¢,b;b+1—a;27") when |z|>1 











Converging Factors for Continued Fractions. I 291 


and to 
d 
dz —s V17 


ae where 4,,=2'~°,F,(a+1—c¢c,b+1—c¢c;2—c;z) when |z| <1. 
17 


The difference equation is 


Un{(b —a—1)z—c—n(1 + 22) — Uy44} = z{a(c —b) + n(a+c—b) +n} (121) 


and coefficients 


a, = — —{(14 + 22) + 1 + 424}, 











(122) 
ata h thans ht ete 1)z]}} 
' yi+ 42 ae 
and 
a = — > {(1 1+ 22) — — i+ 423}, 
gp — #late—b—1)—aytt—ct+ Oat 1)z) (123) 
Vi + 422 
b 4 1 b(c — a) (b+ 1)(c—a+ 1)z 
i-—2Z 1—z —c—(b—a+i1)z— —c—1—(c—a+ 3)z (124) 


(b+n)(c—a+n)z 
—c—n—(b—a+2n+1)2— 





converging to 








d 
a 
7 , where 4,.= (— 2)*—°(1 — 2)*°-4-9,F (1 —a,c —a;b+1—a; 27) 
14 
when |z|>1 
and to 
d 
We vs 
—, where 44,= 21-¢(1 — z)°-4-9, (1 —a,1—b;2—c;z), when |z| <1. 
18 


The difference equation is 
uy {z(a—b— 1) —c—n(1 + 22) — Un 44} = 2{b(c — a) + n(b+c—a) +n} (125) 


and coefficients 


a?) = — 5 {1 +224 V1 + 42%}, 














of an {z(b+c—a—1)—a_,[1—c+ (a—bd+ 1)z]}} (126) 
and 
a2 = — ae +22—Y1+ 42%}, 
2 
a2) — ae i sink (127) 
af ite 
es y Sel + oe (a—¢ + 1) (1 — 9) (a —c + 2)(2—b)z 
; $<5 Te ESER Ee ge EF wes ae (128) 


(a—c+n)(n—b)z |. 
c—n—1—(a—b+n)z— 











292 P. Wynn: 


which converges to 





d 
a: 
; , where y= (1 —2z)—°,R(b,c—a;b+1—a; (1 —2)7'), when |z| >1 
15 
and to 
- y 
“A, 719 
s. Dia , where y= 2!-¢(1 — 2)¢-4-1,F (a +1—¢,1—6;2—¢; ai -) 
Vio \ z—1 


when |z| <1. 
The difference equation is 


uy {z(b—a) +o—1—n(1 +2) — Uy 4,3 =2{b(c —a) + n(a—c—b)+n%} (129) 


and coefficients 
a(c — b)z—c(1i —a) 








a= —41, aP=c, a= r ye (130) 
and 
a —=—z, aM—2z(b—a+1), af =—(c—a)(1—a)z,... (131) 
hone ip dem a sail (b—c+1)(1 —a) (b—c+2)(2—a)z 
z 1—2z | 1—2¢—2—(b—a+1)z— ¢c—3—(¢—a+2)z2—"" (132) 


(b—c+n)(n—a)z 
c—n—1—(b—a+n)z— 





which converges to 





<n 
" , where 4y,_= (— z)!—¢(1 — z)¢-9-1 Fi (b+1—c,1—a;b+1—a; (1 —2)—) 
16 
when |z|> 1, 
and tu 
: ¥ 
ae = 
, where = gl-—¢(4 — z)e—b-1 F,(b 1—c¢c,1—a;2—c;-——— 
Veo Veo ( ) af (9 + Bs) 


when |z| <1. 
The difference equation is 


Un{z(a —b) +co—1—m (142) — Una1} =2{a(c —b) + n(b—c—a)+n%} (133) 


and coefficients 


(134) 





ao —41; aac; alt= 
and 
a? =—z; aP=—z(a—b+1); af? =(c—b)(1 —bd)z;.... (135) 


For all continued fractions (90), (96), (100), (104), (108), (112), (116), (120), (124), 
(128) and (132) the recursion between the coefficients assume the degenerate form 


Ys=0 S=1,2,.... 


Numerical investigation will be confined to one of the foregoing continued 
fractions. It will be recalled that the continued fraction 


1 (a+1)(b+1)z(1—z) (a +n) (b+ n)z(1 —z) 





c—(a+b+1)z+ (c+1)—(a+604 3)24+ c+n—(a+b+2n+ 1)24+ 











Converging Factors for Continued Fractions. I 293 


converges to 


‘1 s(t 10+ 13¢+152)) yion Re(2) <4 or z= 








c oF, (a, b; c; z) 2 

and to 
—1 oh (a@+1,6+1;a4+b—c+2;1—2) 1 
a+b—c+1 2F,(a,b;a+b;c+1;1—2) when Re(s)>—. 


Thus putting a=b=0, c=1, and writing —z for z, the expansion 


Zz 14z(1+2) 2%z(1+2) 
$s 2TH— 3+ 58— 


converges to log(1+z) when Re(z)>—% or z=—4%, and diverges properly 
when Re(z)<—4%. The initial coefficients in the converging factors for this 
continued fraction are, for wu!) 


aM =z, oM=—z, aM 2(1+2), af = —2(1+2)(14+32),... (136) 


and for u/?) 





a?) =142, u&=a,=---=0. (137) 
When z =1 and m =10 
ul) = 10 —1+ 0.2 — 0.08... 
winae (138) 
and 
Ci, = 0.6931 4674 ... 
which is to be compared with 


Cy, = 0.69310925... and log,2 = 0.69314718.... 


It is of interest to observe the effect of the converging factor near the line 


Re(z) =—4. Accordingly the three following numerical illustrations are given. 
When z = — 0.4, 
ul) = — 4+ 0.4 — 0.024 — 0.00048... 
= — 3.62448 (139) 
and 
Ci, = — 0.5108 2560 
whereas 
‘ Cy, = — 0.51122353 and _ log,0.6 = — 0.51082562. 
When z = — 0.5 
ul) = — 5.0+ 0.5 — 0.025 — 0.00125... 
= 4.52625 (140) 
and 
Ci, = — 0.6931 4837 
whereas 


Cy = — 0.73564401 and _ log, 0.5 = — 0.69314718 


when z = — 0.6 
ul) = — 6.0 + 0.6 — 0.024 — 0.00192... 


= — 5.42592 (141) 








294 P. Wynn: 


and Ci, = — 0.9163 2312 
whereas 
Cy = — 5.46031921 and log, 0.4 = — 0.91629073. 


These three examples draw attention to the interesting phenomenon that if a 
continued fraction converges to one function C) when the argument lies in one 
domain, and to C") when the argument lies in another, then there is a sense in 
which the converging factor «) may be associated with the function C") re- 
gardless of the value of the argument. This point, which is primarily of mathe- 
matical interest, will be taken up again in § 10. 


6. Continued Fractions Associated with the Confluent Hypergeometric 














Function 
6.0. If 
po wee a a(a + 1) 
Ah (05034) = 4 + core + seer? +>: (142) 
then, 
(c — a) P (a + 1) . 66+ §) ‘ 
Fi(a+it;eo+i32z) __ 1 ef¢+1) (€+1)(C+2)  (C+2)(C+3) 
1A (a; ¢; 2) poles, 3 ‘= 1+ (143) 
__¢ (¢—a)z (a+1)2 (C—a+1)z (a+2)z 
c— c+1+ c+2— c+ 3-— c+4+ ' 
Converging factors for this continued fraction are derived by writing 
_ (a+n)z (c—a+n)z (a+n+1)2 
“n= TT on— chantit chantoa— (144) 


whence there follows the difference equation 
i (a+n)z 
“n (c—a+n)z 
+ Sa C+2n+1+ U4) 








i.e. 
u, {c+ 2m +1+ uy 44} (C+ 2n) — z(a+n) {c+ 2n+14 4,43} — 
—(c—a+n)zu,=0. (145) 


Inspection of the difference equation (145) reveals that an appropriate form for 


co 
the converging factor is u,= >» “sand that the equation to determine the 
s=—1 ns 
permissible values of «_, is 
2a_,(* 3+ 2) = O. (146) 


The general recursion determined from equation (145) is 


CY, + 2Ys41 a azB, =s ZBsi1 at (c var a) za, — Bksiy =0. (147) 


The two sets of coefficients arising from this are, for u{) 


z z 
aM =O, aft) = 3° aft) = 3 {z+ 4a — 2¢}, 


(148) 


a® — — ag {le + 1)z+ 2c(2a —c)},... 



































Converging Factors for Continued Fractions. I 295 


and for 2‘? 


1 
a®, = —2, af = z (2 —2¢+2), af=— te — 2c + 4a}, 


2 (149) 
af?) — 7 {z(c — 3) — 2(c — 2) (c — 2a)},.... 


Particular interest attaches to the continued fraction (143) when a= 0, it becomes 








‘ 22 i 
Poe ae bos 
Atie + tray tet es te ee a t 

as ol z ME 5) Lie 3 a 

~ 4— e+14+ €42— 6434+ 6€4+4- (150) 


For example when c = 0, (150) may be manipulated into 











exp(—) =1- Pay - $4 is pen 
The recursion (147) becomes 
2y,—2zB,—za,=0 (152) 
and the coefficients (148) and (149) become 
aw, — i a 2 a) — 2 
aly=0, a ale Oty ak = 16° (153) 
and 
a= —2, oP=+(e+2), aP=-+, op=— Je, (154) 
When z = 4, and »=4 
5) agi —_ 
ul) =2+ 0.4 — 0.04... = 2.36 (155) 


Cio = 0.0183 1582 
which is to be compared with 


Cip = 0.01830460... and e-4=0.01831564.... 


A number of important continued fraction expansions which arise as special 
cases of the general expansion of the incomplete gamma function 


Bene 
f ett dt =c-1 2° e* ,R(1;¢+1; —2) 
0 








=otate tt Zz 1°z (c+1)z 2-2 +} 
4— C+1+ 6€+2— 6+3— 6+4-— (156) 
will now be listed. 
The error function is given by 
erf(z) = fev“ at = ze" ,F(1; 2; 2’) 
. —sen* 1 zt 142% (%)z2 22% 
ve i= oe §-. t+, = “ (157) 


The coefficients (148) and (149) become 


2? es e 
aft), = 0; Of? = oh!) = 3 1); af) = ror 1); tee (158) 








296 P. Wynn: 


and 


2 2 
a?) = —2; a? — A (2241); a@—=— = (22-1); af = — — (52#— 3); ... (159) 
2 8 32 
and the recursion (147) becomes 
Bs + 2Ys41— 2 Bsa — $27 Hs — 220541 = 0. (160) 
Dawson’s integral is given by 


Zz 
fe" dt =ierf(iz) = ze" A(1; 8; — 24) 


of 1 s 14-8% (f)2® 22% (§)2* } 





"4+ I A FO (161) 
The coefficients in u are 
2 ze 2? 
a= 0; oM=——; aM = (22+ 1); of = ——— (3224+ 1);... (162) 
2 8 32 


and those in u?? 


1 (22—1); «= — * (22+ 1); g — — (5284 3); (163) 
2 ; 1 8 ; ay 32 peee 


a® = —2; a= — 
whilst the recursion (147) become 
BYst+ 2y¥ciat 27 Bega t+ £27 H+ 2% 0,1, = 0. (164) 


The Fresnel integrals 
a 2 i ah Pe 
C(z) =2-§a tft tcostdt and S(z)=2 $a 4 ft-*sintdt 
0 0 


may be computed at one blow by evaluating the real and imaginary parts of the 
function 


Zz P 
C(z) +iS(z) =2-bat ste’ dt 
0 


= 2-4 yb tz/4 io e~‘dt 
0 


= aot he!* F153; —iz) 





= 2! 2-4 z4 (cos } sin : smh 
a * z* (cosz + tsinz) r4 : . Pe _ 2. ca (165) 
2 2 2 2 2 2 
The coefficients in the converging factors become 
(wD. _ a _ 1 ee az 2 an 38 te 
a@=0, a= — @ A + se 33 32° (166) 
and 
1 iz 2? iz 52? , 
on es 2 ee Petite ssa 1D an een — §* cae, 2. 16 
O31 2, Lo 2’ ay 8 s° Xe 32 t 32 , ( 7) 


and the recursion (147) becomes 


2st 2¥s4rt tz Boar t biza, + izas.,=0 (168) 











Converging Factors for Continued Fractions. I 297 


or denoting the real and imaginary components by suffices, 


27s, re+ 2Ys+1,re— 2 Bs41,im — $2 %s, im — 2% 541, im = 0 (169) 
and 


27s, im + 2Ys41,im + 2 Bs41, ret $25 re + ZGs41,re= 0. (170) 


6.1. A further continued fraction expansion associated with the confluent 
hypergeometric function is 


Fj (a@t+1;¢+1;2) _ c (a+ 1)z (a@+2)z 
1F, (a; c; 2) ~ 6—st o+4—24+ 6+2—2+ ‘ 


Converging factors for (171) are derived by writing 


—_(4+n)z (a+nm+i1)z 
a heer ore c+tnu+1—24+ (172) 


from which follows the difference equation 





(171) 





U,{c —z+n+ Uy43} =(a+n)z. (173) 
Inspection of equation (173) reveals that an appropriate form for u, is provided 
co 
by the expression u,, =2 “, the equation to determine the quantities «_, being 
a4: (a_, +1) =0. (174) 
The recursion derived from equation (173) is 
¥=0 $= 1,2,..., (175) 
where 
A 8 
Unti tnte—z= Z eZ 
s=—1 
and provides the sets of coefficients 
a =O, aW=—2z, aW=z(a—c), aM=2z(c—a)(z+0), (176) 
af) = (a —c)z{2*+ 2(3c —a+1)+c%},... 
for u, and 
a®%=—1, a=1—c, aP=—2z(c—a—1), af = —2(c—a— 1) (2 +¢— 2), (177) 


a = z(c — a — 1) {22+ 2(3c —a— 6) +c? — 4c + 4},... 
for u?. 

Again particular attention may be focussed upon the use of (171) in the 
computation of the error function, of DAwson’s integral, and of the Fresnel 
integrals. (It would appear that (171) cannot be used to give a continued fraction 
representation of the exponential function.) 

The error function 


Zz 
erf(z) = fe~"dt = ze" , (1; 3; 2°) 
0 
is given by the continued fraction representation 


—z f 4 1°22 222 
26 V¥H 2+ FHF FHF -}. (178) 








298 P. Wynn: 


The coefficients in the converging factor u{) for (178) become 


) Q)_ »2 g(t) 2 »_ * 
a =0, a= 28, a= — >, afd > (22*+ 1), 
2 
af) = — ge ett 1027 + 1}, 
and in u? 
ath an — 4 af? == 1 af an Sl of?) — 2 (220 3) 
—1 , 0 2 , 1 2 , 4 , 
2 
af) = — (424 —1824+9), sa 


When z = 2 and m= 10 
us) = 4.0 — 0.2 + 0.09 — 0.0525... = 3.8375 
and Cj,= 19.83 which is to be compared with 
Cy = — 1.3691 and et feat = 24.08... 
Dawson’s integral ° 
feat = ierf(iz) = ze" ,F,(1;3; — 2) 


is given by 





2 { 4 12? 227 
°° WEF a FFA Si oe 


The coefficients in the converging factor u‘2’ become 


2 2 
aM =0, a= —28, a=, af = — (2e*— 1), 

2 4 

22 
ai) = = {424— 1024+ 1},... 
and those in u?) 
the-} @as, @a *. ox(?) — -_ (222+ 3) 

’ 2 ’ 2 4 ’ 


2 
a) — = (424+ 1822+9),.... 
The Fresnel integrals 
Zz Zz 
C(z)=2-§n-4ft-tcostdt and S(z)=27-'absttsintdt 
0 0 
are computed by evaluating the real and imaginary parts of 
C(z) + i S(2) 





2 
$tiz— +iz— F+rz— F4+22-— 


The coefficients in the converging factors u{) and ui?) become 


= 2! nt 24 {cos z + isinz}{ 


E 12 1 4z 

al), = O, af) = — 12, a{)) = 2 P a) == oy 2 4’ 

Zz 1zZ 
af?) == > —- (42*— 1),... 
and 
1 1zZ 2 + 
a so od ~ az 
(2) —1, af = > al?) » a@a — wy +41 “4”? 


iz 2iz 312 } 





(179) 


(180) 


(181) 


(182) 


(183) 


(184) 


(185) 


(186) 


(187) 











Converging Factors for Continued Fractions. I 299 


In all cases (178), (182) and (185) the recursion for the coefficients in the 
converging factor assumes the degenerate form 


¥;=O0 s=1,2,.... 


7. Continued Fractions Associated with Certain Asymptotic Series 
7.0. If 











then 
2Fo(a,b+1;*) = 1 «ax (b+1)% (a+1)*% (b+2)% (a+ 2)%_ 
of (a, 5; x) 1— 1—  1— i— i— 1— 
or writing k=—_, 


4 dean 
Fy(a,b +43 7). 1 a b+1.a+1_ 


tt ef TF CZF (189) 





1 
ao (a, b, — ry 
Proceeding to obtain a converging factor u, in the normal manner, there 


follows 
_ b+n a+n b+n+1 (a+n+1) oa 








a a es 1+ z+ (190) 
or 
ty oan b8 
a n 
le oo 
leading to 
ty (2 + thy 41) + My (a+) — (b +m) (2+ thy 4) =O. (191) 


It is evident that no higher powers of m than the first may be contained in u,. 


co 
Substituting the series u,= >) a,m~* into equation (191) and equating to zero 
s=-—1 


the coefficient of n? there follows 
o*  +a_,—a_,=0 (192) 
i.e. a.;=0. Proceeding to the determination of «,, there follows by equating to 
zero the coefficient of m in equation (191) 
yp — 2 —% = 0. 


Thus the formal procedure, which so far has sufficed to provide converging 
factors for a number of continued fractions, breaks down. The only reasonable 
attempt which can be made to obtain a converging factor from equation (191) 
is to change the origin of reference of z by making the substitution 


z=n+h (193) 
and working with a new independent variable 4, which is assumed to be small. 
Equation (191) then becomes 

Uy (0 + A+ thy sa) +4, (a +m) — (+n) (nh + ttyy:)=0 (194) 








300 P. Wynn: 


and substitution of the series u,= >) a,n~* yields 
s=-1 
a_y(a_1 +1) +a_,-— (a_,+1) =0 
or 
a, +a4—1=0 (195) 
giving 


a~=#(—1+ 5), 


and subsequently two converging factors in the usual manner. 
Before proceeding to obtain these it is advisable to generalise the substitution 
(192) by writing 
z=c(n+h) (196) 
where 
c=ke'®, (197) 


Arg(z) is thus allowed to take any value, and by allowing & to vary, the con- 
verging factor may modify a number of convergents. Equation (194) now 
becomes 


u,(cn+ch+ uy.4) +4, (a +n) — (b+ n)(cn+ch+u,4;)=0. (198) 
The equation for «_, is 
giving 
a_1»=$(c +7) (200) 


n= Vc? + 4c. 


where, 


The equation to determine a» is 


Hy (Ch + H_1 + Gp) + AX (H_1 +) + %q + aa_ — 
~ (cha +0) —b(a4+¢)=0 (201) 
giving 
ap) = S—[efa(e+ 2) +a +b —3 —o} —nfe(h—1) +a—b— 33] (202) 
and 
af?) = [efh(e +2) +a +b —3 —o} +n fe(h — 1) +4 —b — 1}). (203) 


Expressions of a similar form may be derived for further coefficients a, %, ..., 
but they become increasingly intractable, and in this instance it would seem 
more convenient to express each coefficient in terms of quantities previously 
derived. Thus 


1 
oft) = Q (c chin n) 


af) = —* [a {c(h —1) +a —b—1} — c+ —1)] (204) 


af = 1 ((ch-+ al +08?) (8 — 6) + aad?) 














Converging Factors for Continued Fractions. I 301 


and coefficients for u') are obtained by reversing the sign of 7, and changing 
the superscript to 2. 
The recursion to be derived from (198) is 


Gas Y, taa,+a,,,;— 68,—B,.,=0 (205) 
cn+ch+u,.,= ¥ Bon- (206) 
and = 
u,(cn+ch+u, 4) => ya *. (207) 


When } =0, (189) gives the continued fraction expansion of the incomplete 
gamma function 


I'(A — a, z) metal —~£ 42070 —..} 


22 





= 4 @ 4 41) 2 +} 


sion EE: zt-o1+ 2+ 14+ (208 


Particular examples of this expansion will now be listed, with details of the 
appropriate converging factors. 
When a= 1, there follows 


— Ei(—2) = fe-tt-1dt = (0,2) 





ae rere Tis tee Be ee 
1+ 2+ 14+ 24+ 14 °°,S° (209) 
The initial coefficients in the converging factor (209) are derived from 


1 


a oa I as 
as | 2 (k — n) 
aff a — <A (h — 1) (a, — 1) (210) 
(1) 
a = — * {kh + oft + af + 1} 
where — 
n= \RFE AR 
with similar expressions for «?,, «?, «,”,..., and the recursion (205) becomes 
Vs t Os + Osi, — B41 = 0. (211) 


As a numerical illustration of the effect of the converging factor in this case, 
take z=5, h=0, so that c=i and n=5. Then 


uM) = 3.0902 — 0.1708 + 0.0111 ... = 2.9305... (212) 
and 

Cy, = 0.8521 1089 
whereas 

Cy, = 0.85211161 and —5e5Ei(— 5) = 0.8521 1088. 











302 P. Wynn: 


When a=}, there follows 











oo 
1 1 
Erfce(z) = [ e-eat=+r(t 2 
rfc(s) fe dt aT (S-#) 
z 
: oe oe co 
= e-2? — epee. 
e-#*(22) rE: Seis pele aaa =? (213) 
The initial coefficients in «i? are given by 
1 
a, = — (kn) 
a?) = — 2am, {a(n — 1) — i} — aa | (214) 
D ag (1) (1 U 
ay = ~ 39 bh + a +a + | 
where 
2t= k(n +h) 
and 
n= \RP+ 4 
with similar expressions for a ,, ai, a(,.... The recursion (205) becomes 
Yet FAs + O41 — Boi, =0 (215) 
the Fresnel integrals 
2 z 
c(z) = (2m)~* ft-bcostdt and S(z) = (2m)! ft-*sintdt (216) 
0 0 


may be computed by evaluating the real and imaginary parts of 
1 in 


rs. iz) = (cosz + isinz) (22)? e 4 Is — C(2) ~i(5 ~ si))} 

















1 i 
= (cosz + isinz) a Taree i : i } (217) 
Pewee i 1+ izt+ 14+ iz+ "J" 
The initial coefficients in u? are 
a), = —s(hi —») 
w— — 1 [am {(n—1yei— 4) — a —1ri 218 
Co — Sele 8 ae a clan t) (218) 
(1) P 1 
a = — oy hhi + a + a) + > 
where z = ki(n +h) and n = re”, y and » being derived from the relation r4= k*+ 16h?, 
and tan 2g= —+ ; expressions similar to (218) obtained for «®,, a”, and a{”. The 
recursion (205) becomes 
Yst Fas + O511— B41 = 0. (219) 
The Sine and Cosine integrals 
Zz co , 
Cil(z) = f oot at, ci(e) = [ear (220) 
co Zz 


may be computed by evaluating the real and imaginary parts of the expansion 


Ci(z) +isi(z) = — (0, iz) 





- S one 1 i. a 
=< (coss + Sains) FF Gr Teas vf (221) 























Converging Factors for Continued Fractions. I 303 


The initial coefficients in the converging factor u{? are given by 


1 


a), = > (ki one n) 
af? = — : (h — 1) (a, — 1) ki (222) 
af!) ; 

a?) = 2n {h ki + aD), + af) + 1} 

where againcis pure imaginary 
z=k(n+h) 
and »=vre'” derived from 74*= k*+ 162, and tan 29= — *—i expressions similar to 
(222) obtain for «?,, «?, a”), ... and the recursion (205) becomes 
Ys t s+ O41 — Boi. = 0. (223) 


Dawson’s integral is given by 


z 


fear =ierf(iz) = -i( at — Erfc(i2)) 














j (224) 
i a 
= — — —, 2 
a+ 5 r( Zz ) 
i.e. 
Zz . ‘ 
s e —e-* a. 1 f 1 z 1 2 2 
a i _— 2 ee ee 
e-# [ oP dt= - Pi + STL S20 9 =e 7...) (228) 
0 
The initial coefficients in the converging factor for (225) are derived from 
a, = (k — n) : 
, Pee a, {ace —1) + Sh — ath —1)] (226) 
(Ql) 
ay?) =a + ag! + + —k al 
where z?= —c(n+h)=k(n+h) 
9= [— a 
and the recursion (205) is 
Yst Fas + Os41— Bot = 0. (227) 


Expressions similar to the set (226) obtain for the coefficients «,, «@ 


The continued fraction in (225) must diverge, since each of its convergents 
is real, the integral is real, and yet there remains an uncancelled imaginary 
constituent of equation (225). It is interesting to note in this context that if 
k<4, the converging factors u, introduces an imaginary component into C,. 


For example, when z=2, h=—1, and »=5, so that k=1, 
u = 2.0 — 0.15 + 0.0469 + 0.0041 ... 
+ 1(— 4.0 + 0.425 — 0.0059 — 0.0077...) 
= 1.9010 — i 3.6574 (228) 


2 
a. 


and 
Ci, = 1.2001 + 7 0.0660 











304 P. Wynn: 
which is to be compared with C,,=0.6336, and 
2 
4e~* f edt + 2e~4 ahi = 1.2054 + 0.06497. 
0 


The continued fraction 





pS wo a 2 Bs 4 ; 
2z lit —28+ 14+ —2*4+ 14+ 
is of further interest in that it may fortuitously be manipulated into the monadic 


form 
1 2 4 6 














Z- 2- au- a (229) 
The difference equation for the converging factor 
2n 
ty 2 Eee 
22 — Un+y 
or 
My (22 — Uy4s) = 20 (230) 
must again be manipulated, by means of the substitution 
z=c(n+h) 
into the equivalent form 
u,,(2cn+ 2ch — u,4,) = 2n. (231) 
co 
Substitution into equation (225) of the series u,,= >) a,~* yields 
s=-1 
a_,(2c —a_,) =0. 
The two sets of coefficients are 
(1 — 2c%h) (1 — 22h) (1 — c2h) 
a), a ag = ry , ay) —_ ———o ’ ons!) = 25 ’ (23 2) 
and 
a= 2c, af) = at Sool) aul et i 
c c 
(233) 


__2e8(h — 1) — 1) 
bai 2c5 


The recursion for the coefficients derived from (231) is the degenerate 


af?) 





{c2(2 — h) + 1}, ...- 


y¥;=0 a2Q, 1,... 
where 
2cn+2ch—tM44,= > Bn. (234) 
s=-—1 


Various numerical experiments with these two converging factors lead to the 
belief that they are for all practical purpose quite worthless. For example, with 
z=2,n=5,h=—1, and k=}, the modified convergents are 


Cg =0.338 and Cy=0.234 


2 
whereas C,=0.29 and e~4 f e“dt=0.301.... 





























Converging Factors for Continued Fractions. I 305 


7.1. The even and odd parts of expansion (189) are respectively 


(a,b +1; ——) i 














a Zz a(b+ 1) (a@+1)(b+2) (235) 

(a,b; — 4 zta— z+4a+60+4+2-— 2z4+44+0604+4-— 

2°0 7? Zz 

and 

1 

F(ab +45 a P @+NO+) G36 
1 z+tat+b4+1-—- z2+4a4+064+3- " 

F(a, b; -—) 


Converging factors for (236), and for special cases of (236) will be developed. 
Writing 
(a + n) (b + n) (a+n+1)(b+n-+ 1) 


“Lath +anti_ s+64+-5+ 3n + 3— fini (237) 





there follows 


u,{2n+z2+a+6+1—u,,,} =ab+ (a+ b)n+ n?. (238) 
Straightforward substitution of the series u, = >) a,n~° into equation (238) 


again leads to perdition. There follows sia 


a_(2—a_,) =1 
giving a_,=1, and then 
a_s(z+a+b+1 — Bp — H_3) + %&(2 — a_,) =a+b 
giving z =0. 
Again the substitution z =c(m-+h) must be resorted to. Equation (238) then 
becomes 
u,{n(2+c)+ch+a+b4+1—4,,4,} =ab+ (@+b)n4+n? (239) 
which gives 
a), =2(2+¢—7n) (240) 
and subsequently 


ap) = —[nf{e(h —1) +a +b —1} —cf(c +2) (h—1) +a t+b—1}). (241) 


Again it transpires that the greatest economy in transcription is effected by 
expressing each coefficient explicitly in terms of its predecessors. 


Hence there follows 
1 


ont), ane + 2 —yn), 
ap) = — = [al {o(s—1) +a+b—1}+1—a—9], (242) 
of!) — — = fag! (ch + a+b+1—a) — a) — ad} 

and a set «), «!?), a), ... obtained from these by reversing the sign of 7 wherever 


it occurs, and changing the superscript to 2. 
The recursion derived from (239) is of the degenerate form 


y¥,=0 s=1,2,.... (243) 











306 P. Wynn: 


The expansion for the incomplete gamma function derived from (230) is 
I(t —a,2)=e*2-*{1 A thinset tet 2) +} 
( z) =e-*2z "Telin THE eo Tiree (244) 





special cases of which now follow. 
The exponential integral is given by 


— Ei(-—2z)= fet dt = I(0, z) 


Se 1 1:2 2°3 
mei {! z+2-— 2+4- te}: (245) 





The initial coefficients in the converging factor u‘! are 


a = E(k + 2-7) 
a” = aD, k(1 — h)/n (246) 
a — — af (+ of + kA + 1)/y 


where . 
n= VR? + 4k. 


The Complementary Error Function is given by 


oo 


Erfc(z) = [e*a= 5T (5-2) 


Zz 














“or + 1-¢ 
(et Satinccnll Oca oi 24 
22 {' FFE FFE= I ~~ 
a), a, and aj” are given by 
1 

Oe oe: ee - 

t= > (k + 2—n) 

of = - A [a few 9-4} 4-4 (248) 

? n ie 2 2 

(1) _ (1) | (1) (1) CAF; 

ay = — a a + x +kA+ >) /n 

where z?2= k(n +h). The Fresnel Integrals 
Zz 2 
C(z) = (22)~* ft costdt and = S(z)= (22)~*f t~4sintdt 
0 0 
are computed from the relationship 
1 \ 1 ia 1 
r( Ss iz) = (cosz + isinz) (2%2)* e4 {3 ~ CH ~i{= - s(2))} 
1 4-2 2: 5 
= 2 2 2 > 
—i—weys Wtse Te (249) 
af), af), af!) and are given by 

a>, = 3 (ki +2—7n) 

al? = — [a (k(h — 1)i- 3) + Bn (250) 
af? = — af {a + of + B+ khan 

where 
z=k(n+h), n=ret®, where r*=k*+ 16k, tan2e= — . . 


and c is pure imaginary. 




















Converging Factors for Continued Fractions. I 307 


The Sine and Cosine integrals are given by 








. ve : sd 1 1°2 acs 
C(2) + isi(e) = i(cose — i sine) {1 — ey ps = } (251) 
a’, al?, and ai? are given by 
at, = 3 (ki+2—y) 
ag) = a_,k(1 — h)/n (252) 
ay? = — ag{a_y t+ at-1+khi}/y 
where »), k and ¢ are as in the preceding example. 
Dawson’s integral is given by 
; ae l ™ 1 23 Z 
fi | ewer 2 zt cr T35 {! + ;— — a _ a a (253) 


a a, a2? are given by 
ait = 3(2—k + 9) 
af) = [a (k(h — 1) +3}—4)i/n (254) 
a) = afd (oD, + oft) — 2 — Rhi}/y 


s*=k(u-+h), c is real and negative, and » = /k?— 4k. 

The coefficients «’,, «(?), x?), in each of these expansions may be derived from 
the expressions for «‘”,, «{?, and a{” by reversing the sign of », and changing the 
superscript to 2. 

7.3. A further continued fraction relating two asymptotic series of the form 


(188) of contiguous orders is 


a 


Bo 
(at 1,b+1;-—) 





1 
oF, (a,b; -+) 





SERTEPIK“ FPRSITIS FTE FSF 5— 
The converging factors for this expansion are derived by writing 


“on (a + n) (b -- x) (a+nu+1)\(b+n+1) 
as ztatb+2n41-— z24+4a4+604+2n+4+ 3-— 


and are identical with those derived for the expansion (236). 





References 


“1]) GLAISHER, J. W. L.: Proc. Lond. Math. Soc. 5, 85 (1873/74). 
2) Bicktey, W.G., and J.C. P. MILLER: The Numerical Summation of Slowly 
Convergent Series of Positive Terms. Phil. Mag., Ser. 7 22, 754 (1936). 
3) Wywwn, P.: The Numerical Application of Continued Fractions. To appear. 
4) Ince, E. L.: On the Continued Fractions Connected with the Hypergeometric 
Equations. Proc. Lond. Math. Soc. 18, 236 (1918). 
5) Bicktey, W.G., and J.C. P. Mitter: The Numerical Summation of Slowly 
Convergent Series (unpublished memoir). 
'6) BrapsHaw, J. W.: The Modification of an Infinite Product. Quart. J. Math. 
(Oxford) 12, 216. 
Institut fiir Angewandte Mathematik 
der Universitat Mainz 
Jakob-Welder-Weg 7 


(Received March 25, 1959) 








Numerische Mathematik 1, 308— 320 (1959) 


Converging Factors for Continued Fractions 
Part II 


By 
P. WYNN 


8. Further Continued Fraction Expansions 


8.0. The continued fractions so far considered have related to certain celebrated 
functions of mathematical physics. One further illustration will be given. 


The integral 
J (secht)* e~*'dt = F, (z) (256) 


is expressible as 
14 tek 2(kR+1) 
b@) SE aE et aii 





Converging factors for (257) are derived by writing 





_ nkt+n—1) (n+1)(R+n) 
u, cr — (258) 
which leads to 
Uy (2 + Uy41) =? + (k — 1) n. (259) 
Substitution of the series u,= >) «,2~* then vields 
s=-1 
aM =41, of = —1 


and the sequences of coefficients 
a= 1; of = 2 (k—2+2); af = 2 (k—2—2) (b+2); 


af!) => (k — 2 — 2) (k + 2) (k — 2);... 
and 


a= —1; a——F(e+2—2); af =2(k+2—2)(b—2); 
(261) 
aff) ——"(k + z — 2) (k — 2) (& — 2)3.... 


Examples of the numerical performance of the converging factors have already 
been given in § 2, for it will be noted (c.f. equation (90) in conjunction with (257)) 
that 


F,(1)=log,2 and F,(1)= 7 —4, 

















Converging Factors for Continued Fractions. II 309 


Thus the sequences of numbers derived in § 2 are revealed as special cases of 
(254) and (255). 

8.1. The techniques described for obtaining converging factors will, it is hoped, 
prove successful when applied to a far wider range of expansions. The continued 
fraction 


b - a Sa 
1 TEs Es 





in which the coefficients are rational functions of their suffix may be trans- 
formed, by a suitable equivalence transformation, into an expansion whose 
coefficients are polynomials in their suffix; it thus comes within the terms of 
reference of the algorithm described in § 1. 


8.2. Extension of the theory to obtain converging factors for continued frac- 
tions whose coefficients may be approximated by series of the form 


6_,n* + 6_,,, n° 14+ ---+6,+ 6,014 6.n-24+--- (262) 


is trivial, and will not be considered here. 


8.3. A possible mode of treatment for other types of continued fraction 
expansion is illustated by considering the expansion 


1+q%x-+ 91x? + q?x3+4... 


=4+f%..£2 C0-2)%. ¢€* fi-s gs 
41— 1+ 1— 4+ 1— 1+ 





For small values of g, the continued fraction is rapidly convergent, and the 
derivation of a converging factor somewhat idle. It is nevertheless instructive 
to pursue the matter. Writing 


gett» qre~t ia — gi"—*)x gets x ” ededidied, —q*")x 
iii ee i= 1+ = vs 
there follows 


Uu 





4n+3 y 
%,, = q 


0 ae (263) 
1 — Una, 








If g is small, then clearly u, ,,< 1, and consequently 


L gints x 

Uy, oak + g**-1(1 — q*"-2)x 5 
This merely leads, however, to the computation of the (2”+1)-th convergent, 
rather than to the 2-th. 


When qg==1, then the substitution g = 1+ ¢ is adopted, and an approximation 


co 
of the form u,= >) a, ,¢° will be derived. It is proposed to insert this substitution 
s=0 
into the difference equation (263), and obtain the quantities a, , by solving the 
difference equations given by equating the coefficients of like powers of ¢ in 
(263). Accordingly equation (263) becomes 





(264) 


ty (1 — ty 41) + 9°" (1 — g6"-*) xm, — gh" FF x(1—ty.,) =0  — (265) 








310 P. Wynn: 


or 


{ano + n,1€ + ay, 28 + a {1 — 4y41,0— 441,1€& — Qni1, 26° — oo + 











+ {y+ 4,16 $4,264 °°} {1+ (4m — 1) e+ an Hy 2 att} x 
x {— Un —2)¢— GANA 9 os) 

—x{1+ (4m + 3)e+ Gast ...| x 

Xx {4 — Qua o— 4ns1,1€ — En4i,28--+} =0. (266) 


Equating to zero the term in equation (263) independent of ¢, there follows 


An o(1 — Ay41,9) — x(1— Gn+1,9) =0 
or fortuitously 
Ay g =X =Ayiy 9 OT ay 9 =1=—4, 41 0- (267) 


Since, when g = 1, ¢ =O, and u,,, from equation (263) is equal to x, it follows that 
a®),=x and a®)=1. (268) 
Equating to zero the linear term in e¢, there follows 
— Ay 9Ansi1t 41 (1 — An+1,0) — ¥ An, 9(4% — 2) — 


— «(4m — 3) (1 — Ayia 9) +%4n411=0 
which gives 
4nx + 3% — 5%? 
(1 — #) 


(4n — 6)% 
(¥ — 1) 





a) = and al?) = 
Equating to zero the quadratic term in e, there follows 


; (4n -- 2 4n — 3 
ay o4Fn4 a Ay 1 4n+1,1 +4, 9 (1 — ay4 1,0) —%* x a, oo 


— x(4n — 2) (4n — 1) a, 9 — x(4n — 2)a, 1 — 








at ds se 2 (~ A, +1,0) + x(4n + 3) Antti t+ %a,.12=0 (269) 


which gives in turn 


a, = Tr ~ 7 {8n2(2x3— 3x2+ 2%+1)+ 

+ 2n(1 — x) (16x2—19% + 5) +(2x3+ x? — 10x + 3)} 
and 

(4n -—- 6)* 

a= See aye (els — 4x +1) + (1548+ Bx — 3)}. (270) 

9. An Integral Equation for the Converging Factor 
The Coefficients in the series w= >) a! n-* and u?)= >’ «)n-* for the 
s=—k s=—k 


converging factors may be regarded as coefficients in two generating functions. 
In [5] BickLEy and MILLER proposed a method of finding the generating function 
relating to the converging factor C(m) of an infinite series, which, if successful, 

















Converging Factors for Continued Fractions. II 311 


determines the coefficients at one blow. This method will now be described and 
subsequently extended to deal with converging factors for continued fractions. 


The converging factor for the infinite series >) u, is defined by 
7=0 
oo n—1 
du, =D u, + u,C(n) (271) 
r=0 r=0 


and in consequence satisfies the difference equation 
Uy, C(n) = Uy, + Uy 4 1 C(m + 1) . (272) 


In the method being described C(m) is expressed as the Laplace transform 


C(n) = v(m) f oF (t) at, (273) 


where /(¢) is obtained by substituting the expression (273) into equation (272), 
and (mn) is largely determined by the exigencies of equation (272). 


As a simple example consider the series log, 2= >) (— 1)"(m+1)~}. C(n) satis- 
fies the equation n=0 


= C(n) =—- (n +1)-2C(n +1). 


Use of the substitution (273) gives 


co co co 


2) fF o-mt 5() dt = f e-m#§ PEND f e-mtue gy ae 
0 feigarm format f 
or, choosing g(m) =n 
}(t) =, (274) 
1+e 


The coefficients in the converging factor for the series >) (— 1)"(m+1)~! are 
thus related to the tangent numbers 7; by — 


C(n) = >) a,n~* 
r=0 


s—1 
(— 1) + 


%,=O Os. = 3s s° 


Use of the faltung integral enables a similar procedure to be adopted in the 
case of continued fraction converging factors. Writing 


oo 


u, = p(n) fe f(t) dt = p(n) -L f(t) (275) 
0 
then 
Uni, = p(n +1) Le f(t) 
and (276) 


My Uni, = p(n) p(n +1)L fe f(T) f(t — T) aT. 
0 


n n+ 








312 P. Wynn: 


Substitution in the difference equation (10) and a suitable substitution for @ (m) 
then lead to a non linear integral equation for /(t). Two simple examples are 
provided by examining the converging factors (4) and (48), for the continued 
fractions (1) for 2/4 and log,2 respectively. Substitution of the equations (276) 
into the difference equation | 


Uy (Unsy + 1) _ n(n a 1) 
.eads to 


p(n) p(n +1) Lf e"t(T) f(t— T)dT + y(n) Lf(t)=n(n+1). (277) 


Taking p(n) =n?, there follows 


Lf e-T#(T) HUE —T)dT+Lf{te" -Lf(t) =L(1—e~") 
0 
i.e. 


Lf e-T#(T) H(t _ T)dT+Lf Te-Tht— T)dT=L(i—e~‘) 
0 0 
and finally 


f eT et—T) (f(T) + T}dT=(1-—e7). (278) 
0 
The difference equation 


uU, (Un41 + 1) =n? (279) 


yields, by means of a similar substitution, the integral equation 
t 
feet -—T) f(T) + TodT=te“. (280) 
0 


The difference equations satisfied by the converging factors for infinite series 
are linear and of the first order, and by reason of this are peculiarly susceptible 
to treatment by means of the Laplace integral. The integral equations which 
arise when considering converging factors for continued fractions are, however, 
non-linear and as a consequence of this it is true to say that at present, equa- 
tions (278) and (280) do not serve to identify the coefficients in the converging 
factors for the continued fractions (1) and (47). Equations (278), (280) and the 
methods of their derivation are placed on record however to facilitate further 
possible investigations. 


10. The Converging Factor ul?) 


So far the numerical behaviour of the converging factor wu") has systematically 
been illustrated but, apart from initial examples in § 3, an investigation into the 
effect of the converging factor w'?) has sedulously been avoided. The discussion 
of the converging factor will be commenced by recalling that the continued 
fraction 


; (a+1)(b+sz(t1—2) _(@+2)(6+2)2(1—2) (994) 





c—(a+b+i1)z+ c+1—(at+b4+3)z+ c+2—(a+64+5)z+ 














Converging Factors for Continued Fractions. II 313 


converges to 





1 #A(at+i,b+1;¢+1;2) | = a — ie 
: UH: when Re(z) < oe Ae (282) 
and to 

—1 Fi (a@+1,6+1;4+b—c+2;1—2) 1 (283) 





a+b—c+t1 2 (a,b;a+b—c+1;1—2) when Re(z)>— > 


The initial coefficients in the converging factor u'?) for this continued fraction are 
a?) =2z—1, of) =(z—1)(¢—1), af?) =2(z—1) {((c—1)(c—a—b—1) + ad}, 
af?) = 2(z —1) {(c —1) (ec —a —b —1) +a}} {2—c—2z(a+b+}3 —20)},.... (284) 


When a=b=0, c=1 and z is replaced by —z, the continued fraction (281) 
becomes 
1 12z(1+2) 2%2(1+2) 


i-s~ 29" “FF Fe (285) 





which converges to 4 log(1+2) when Re(z)>— 5 , or z=— 5 and becomes 
formally infinite when Re(z)<— > . It will be remembered that numerical 


experiments described in § 5.1 indicate that there is a sense in which the con- 
verging factor u®) for the expansion (285) is associated with the function 


- log (1+2) for all values of z. 


Now the converging factor u'?) for the expansion (285) is from (284) and (285) 











ul?) = (1+ 2)n, 
and in this case 
ee 1 12z(1+2) (m — 1)2z(1 — z) 
"  44+2— 2432- n+(2n—1)z—(1+2)n 
Tm 1 14z(1+2) (m — 2)2z(1 — z) 
~ *+8— 24+38— n—1-+ (2m — 3)z— (1+ 2) (n—1) 
a . 122(1 + 2) 
 ftpe— 2+ 32—2(1 +2) 
= : (286) 





;' 1+z2—(14+2) © 
Thus the continued fraction (281) has in this case been forced to converge to 
the function (283) by the application of the converging factor uw, and, it will 
be noted, independent of the value of the argument z. 

That this is not an isolated phenomenon can be seen by examining the con- 

tinued fraction 

z(1—z) 32(1—2z) (287) 
‘et §~— s+ $—2z+ 


, C=, in (281)) which converges to 





~-= 
° 
on 
= 
4 
=] 
oO 
Qu 
om 
<< 
? 
Ss 
— 
Z. 
=] 
ge 
a 
I 
~ ws 
| 

| 
to|= 


1 
: and z=- 


when Re(z) < = >? 





and to 2/z when Re(z)>¢. 





314 P. Wynn: 





Numerical examples show that the effect of the converging factor wu‘ for this 
example is very much the same that of the converging factor wu!) which relates 
to (285), and so is that of w'?), for it then transpires that 


ui? = (4 — z) (n+ 4) 











and 

C? unt Ae: Tees ees 

Y Be #—2z+ §-—2z+ nm —%—2z(1 —2z) (n+ 3) 

pve 42(1—2) Gz(1—2z)  (m — #)?z(1 — 2) 

me P-2+ F-z+ n—F—2(1—2)(n—}) 

aaah ae 42z(1 — 2) 

et Fo2z— (1-2) (8) 

= 2. (288) 


The discussion of the expansion (281) is also relevant to the continued 
fraction 


4. 28 Soi +s 
4) =s> = _ Les. (289) 





for it may be seen by comparing (289) and (281) that the converting factor wu), 
the initial coefficients of which are given by the set of equations (260), is associated 
with the function 





(1,2 1+ 5 (+2); 2) 


and that the converging factor u\, indicated by the set (261), is associated with 
the function 


z+k 





(1,2: (e—2) +453). 


It is by noting these results that the quantity Cg = — 1.57086... obtained in 
§ 3 by application of the converging factor uw?) to the continued fraction 


1 i°2 2:3 


me —-—am #8 


i- if i+ 


is identified as an approximation to 1—,/,(1, 2; $; 4); in a similar manner the 
effect of the converging factor u'?) in transforming the continued fraction 
1 ec 
i+ 1+ 1+ 
into a fraction with a vanishing denominator can be understood. 
The continued fractions retailed in §§ 4—7 could either be expressed as or 
related specifically to expansions which may be expressed as v,/v9, where v,, 
satisfies a second order linear recursion of the form 





Ung2e = — On41 Unda + angi Un, (290) 


for it follows from (284) that 


Unt+1 pe a, 





v 
n b + n+2 
Unt 


n 














Converging Factors for Continued Fractions. II 315 


and hence 





. oo a es thts 
Y Ot B+ b+ (291) 
If v' and v?) are two linearly independent solutions of (284), any solution of 


(290) may be expressed as 
av) + by), 


If the coefficients a,,b,, are functions of an auxiliary variable z, the particular 


function of the form 
av + bvi? 
avo oo (292) 


to which the continued fraction (291) converges is determined by the value of z. 
The reason for this may be demonstrated heuristically as follows. The m-th 
convergent C,, of the continued fraction 


a a a 
op (293) 
is given by 


_ 01 O2{or — 03} aa 
C,= ont l — opti wt, 2,... 


~ 


where g, and g, are the (generally distinct) roots of 


o?— bo —a=0 


—b+ /b?+ 4a gn Ree way 
2 ? oes ’ ° 


2 


i.e. 








a= 
Thus if 
lal>lee], limC,=@., and if |o|>la|, limC,=@. 


If a and d are functions of z, it can be seen that as z is made to vary throughout 
the complex plane, both conditions |9,|>|0.|, |e@2| > |o,| may be imposed in 
turn, and accordingly the continued fraction made to converge to differing 
functions of z. This discussion is relevant to the continued fraction (291) since, 
by a suitable equivalence transformation, it may be expressed as 


d. wneh.%.M... 
V9 b+. b,+ b3+ 
for which lim a, =a, lim b=), and accordingly the the convergence pheno- 
n->0oo n-—>0o 
mena associated with (291) relate to those of (293). 

The transition described above relating to the continued fraction (281) takes 
place on the line Re(z) =}; that relating to all other continued fractions men- 
tioned in other sections of this paper take place when |2| is infinite. 

It would thus seem legitimate to conjecture that the converging factor wu!) 
relating to the expansion (291) is permanently associated with one function of 
the form (292), and the converging factor u'?) with another, since this has been 
shown to be the case with the continued fraction (281), and there is no reason 
to suppose that it should prove to be otherwise with others. 








316 P. Wynn: 


One may even make reasonable suggestions as to the function associated with 
the converging factor «) in particular cases; for example (with non integral 1) 
that for the continued fraction 

z (3) () G) 
2 2 2 2 


y— 9ti— #»+2— 1+3— 





the function in question should be Jor) ; and that for the the continued 
fraction J-+@) 
c a(c—b)z (b+1)(c—a+1)z (a+1)(C—b+1)z 
c— ¢+1-— c+2— c+3— 





which converges, it will be recalled, to 


of (a,b +13;¢+ 1; 2) ‘ 24 (4,6+1;a+b—c+1;1—2). 
oF; (a, b; c; 2) » 2 ME be oi(a,b;a+b—c+1;1—2) ’ 








and that for continued fraction 


c (c—a)z (a+1)z (C—a+1)z (@+2)z 
¢C— ¢+1—- ¢+2-— c+3-— ¢+4— 





which converges to 








17 (a@+1;¢+1;2) . 1 ,A(a—c+1;1—¢;52) , 
SG ; it should be ‘e ETA COLE 


and that for 
c (a+ 1)z_ (a+2)z 
e—2z+ ¢e+1-—-24+ ¢c4+2-—24+ 





which also converges to 


Fi(at+iic+132) it should also be 1 afi(@—et+1i1—<:2) 


1 (a; c; 2) z ,A(a—c+1;2—¢;2) © 








However this may be, it would materially assist in any investigations, to have 
numerical values of the quantities C;, computed by means of the converging 
factor uw’). As a first example consider the expansion 7 


ae Zz Zz az 23 38 ae 
1+ 2— 3+ 4— 5+ 6— 


which converges to exp(—z). When z=4 and n=5 


u?) — —10+ 3 —0.4—0.412...= — 7.52 (294) 


1 





and 
, 3.1104 — 7.52(0.4224) _  — 0.066048 ‘ 
100Cro 1.70688 — 7.52(0.226944)  +0.000261 (295) 





Two factors emerge from this example: the first is that the series for u@ is 
numerically slowly convergent, and the second is that the cancellation of figures 
occurring in the expression (295) is such as to render it meaningless. Accordingly 
a number of numerical examples are now given in which the argument in the 
continued fraction expansion is chosen in such a manner as to enable a reasonable 














Converging Factors for Continued Fractions. II 317 


estimate of u to be formed from the initial coefficients. In each example the 
expansion is first given, then the initial terms in the converging factor u®, and 
finally a quotient expressing C,. The bracketed figure above each product 
indicates the value of that product. 





z=0.2, v=0.75: 
uf) = — 10 — 0.75 + 0.001 + 0.000025 + 0.00000072 + 0.00000003 


206 
= — 10.7489 7425 = 


, {1. gcd in ll ‘ 

es 1.751 3071 — 10.74897425 - 0.16295794 

Cis {1.75160712} (297) 
1.76510717 — 10.7489 7425 - 0.16421168 





z 182 122 2%z 222 











log (4 ee. Se A 
81+ 4) TS oF 34 at SF 
z=0.2: 
u?) = — 10.4772 2558 — 0.9977 2256 -+ 0.00000913 = — 11.47493901 (298) 
6.05726 ype ites tu 52787996 
* __ 6.05726112 — 11.47493901 - 0.52787 
Cu= {6.6447 3301} (299) 
6.64459127 — 11.47493901 - 0.57906478 
a ee ee ee ee eee ae. ae 
1+ 2— 3+ 4— 5+ 
z=0.1: 
ui?) = —10+ 1.05 — 0.00025 — 0.000075 ... = — 8.950325 (300) 
{3.6096 3025} 
on 3.60964321 — 8.950325 - 0.40329 5998 (301) 
” {3.7931 1928} 
3.7931 3289 — 8.950325 - 0.4237 9682 
rr? ee oe + 1-22 227 
ta fe “ “F—2+ FHA F-2+ 
0 
z= 0.2: 
ul?) = —10+0.5 — 0.002 — 0.000292 — 0.0000 4143 ... = — 9.50233343 (302) 
Pe mee {6.2963 5990} on 
C.= .2963 6406 — 9.5023 3343 - 0.66261197 ' (303) 





{6.13024106} 
6.13024513 — 9.5023 3343 - 0.6451 3007 


Numerical experience with a number of continued fractions indicates that one 


of two conditions holds; either the series expansion does not serve numerically 


to define u!?), or u!?) == — fa =— a) , as with the above examples. 


n—2 n—2 














318 P. Wynn: 


Conclusion 


In most of the researches into converging factors undue attention has not 
been paid to the convergence of the resultant series: the value of the functions 
computed by means of the converging factors have been checked by an alternative 
computation and the matter has rested there. This has also been the case in the 
investigation of the converging factor «”) in this study; numerical results have 
indicated in all cases the converging factor wu‘) has some significance in the 
theory of continued fractions, and it is reasonable to suggest that for expansions 
derived by the transformation of asymptotic series it will fulfil a useful function 
in accelerating the convergence of slowly convergent continued fractions. 

The limitation of the above mentioned approach are indicated in a salutory 
manner by the results (296) to (303) of the preceding section. Apart from the 
unsatisfactory nature of some of the numerical results produced, the formal 
procedures described in the text may even fail completely to produce a converging 
factor. Consider for example the continued fraction 














= . L = L 2s eee n®s . 
(= 25> i— f+R— PtP wep 84) 
Writing 
inne n?s (nm + 1)25 
“nat (n+ 1— (+1) + (n+ 2) — (305) 
there follows 
u, {n> + (n+ 1)§— 4,3} =n. (306) 
This has only one solution, u,,=*, and for this 
ae ee. ee A 
"4 BEB FE3— — (n— 1) Fn — as 
2s 
“gh erecy "ToT: (307) 


1— 1%5+25—25 1-145 


It is permissible to suggest that by transforming the power series for uw?) into a 
continued fraction (thereby increasing its effective computation range) the con- 
jectures contained in §10 might be justified. A purely numerical approach to 
this interesting facet of the theory of continued fractions is so profoundly un- 
satisfactory, however, that this suggestion has not been implemented. The pro- 
blem of transforming slowly convergent continued fractions into more rapidly 
convergent expansions has been attempted by BRADSHAw [6], whose treatment 
derives from his earlier investigations into slowly convergent series. His method 
proceeds essentially by obtaining rational approximation of increasing orders to 
the remainder of an infinite series or the tail of a continued fraction, and sub- 
sequently identifying these approximations as successive convergents of a con- 
tinued fraction of simple construction. This procedure is satisfactory when 


co 
dealing, for example, with a series of the form Zz {— 1 (though it must be said 
n=0 
that his results might much more expeditiously have been derived by writing 
down the continued fraction expansion of ,/,(1,";"+1; x) and putting 


x = —1) but becomes impractical for any example which is more complicated. 

















Converging Factors for Continued Fractions. II 319 


The problem of transforming slowly convergent continued fractions must be 


approached in a different manner. 
co 


If the power series >’ u,v," is slowly convergent, the quantities v, are 
n=0 oo 
approximately constant, and the function g(x) =>) u,x" and its derivatives 


n=0 
may easily be computed, then a most apposite transformation to use in the com- 


putation of the function 
= ' = , at 
YMA" is Di thy = G(x) M9 +x H'(x) Avyt 3, G(x) Ato+ ---- (308) 


That this transformation is easy to devise follows from the fact that the deri- 
vatives and differences of a function defined by power series are easily expressible 
as power series in turn. But this is not true of continued fractions, and until 
such time as simple relationships between the coefficients in the continued 
fraction representation of a function and those of that of its derivative have 
been discovered, processes such as the removal from an.expansion of its dominant 
term will be difficult to effect. 

The converging factor represents the initial step in the solution of this 
problem. To give an example it will be recalled that the first term of the series 
expansion of wu") derived from the definition 


_ (a+n)(c—b+n)z (b+n+4+1)(Cc—a+n+1)z 
"6+ 2n+1— c+2n+2-— 
(a+nu+1)(c—b+mn+1)z (309) 
c+2n+3- 





Uu 





which is the converging factor for the expansion 


oA (a,b+1;c+1;2) __c¢_ a(c—b)z (b+1)(C—a+1)z 


oF, (a, b; c; 2) ¢— ¢e+1-— c+2-— 








is 
w= (1— Jian. 


Thus the converging factor does effectively remove the dominant term from a 
continued fraction expansion, for (309) may be written as 


(14+ £)(1+— (+24 fete), | 


cil we is a | 
n n 








n—" 


2+ 





~w { ad a ad oe 
wi 2-— 2- } 


=n(1—yi—2). 
Incidentally the conjectures contained in the last section relating to the con- 


verging factor u'?) are seen here to be substantiated by this example, for the 


initial coefficients of u?) and u!?), namely 1— |/1—z and 1+ |/1—z are respectively 
the roots of smallest and greatest modulus of the quadratic equation 


o?+20+2z=0. (310) 
22* 











320 P. Wynn: Converging Factors for Continued Fractions. II 


It is evident that it would be most useful to derive a continued fraction 
expansion for either 
Fi(at+n,b+n;c+2n;2z 
e+ a {1 mn atte eras ont 
1—Ji-—z 
(a+mn)(c—b+n)z (b+n+1)(C—a+n+1)z 
c+ 2n+1— c+ 2n+2— (314) 


Zz Zz 


; ae as 














or 


2 (a+n,b +n; c+ 2n; z) me 7x 7} 
(c+ 2m) {4 oi (at+n,b+n+1;¢+2n4+ 232) {1 1 : 


— {Bt oe—dtws Ptatneretatis | (342) 
c+ an+1— c+ 2n+2—- 











ee AE SE NE +} 

2—> 24=—- 2=— : 
In the event the converging factor may have greater significance in the theoretical 
development of continued fractions than in that of their practical application. 


Acknowledgements. The author wishes to thank Dr. E.T. Goopwin of the 
Mathematics Division of the National Physical Laboratory for permission to use the 
DEUCE upon which most of the numerical data ralating to continued fractions used 
in this paper was computed; he is most grateful to Mr. E. L. ALBasiny for assistance 
in using the DEUCE; and he is profoundly indebted to Miss D. B. Catton who 
checked through most of the converging factor formulae given in this paper and 
made numerous useful suggestions with regard to their presentation. 


Literaturverzeichnis am Ende von Part I dieser Arbeit auf S. 307. 


Institut fiir Angewandte Mathematik 
der Universitat Mainz 
Jakob-Welder-Weg 7 


(Received March 25, 1959) 











SSVGERCEISEe tale 
LP BELL LLL ILL 


‘ 

















